Наука о данных

Тема 2: Модуль 2: как начать говорить с дата-саентистом на одном языке

Урок 1: Во что превращаются данные: целевая переменная, объект, прецедент и другие термины

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?

 

Мы уже говорили о том, что любое действие или событие можно записать в виде набора факторов: например, запись о вашей поездке на такси может включать данные о координатах подачи машины, координатах места высадки, расстоянии и длительности поездки, времени суток и так далее. Это сырые данные. Чтобы управлять процессом обучения, дата-саентисту требуется правильно разметить и подготовить эти данные. Для этого он должен перевести вашу гипотезу на язык математики.

 

К этому моменту вы уже сформировали гипотезу: что и для чего вы хотите делать. Теперь вашу бизнес-цель нужно обозначить на манер, который поймет программа. Это формулируют так: «назначить целевую переменную и объект». Также дата-саентисту потребуются «веса» — те самые факторы, которые влияют на показатели вашего продукта или бизнеса.

 

А чтобы донести максимум полезной информации до дата-саентиста, вам нужно научиться говорить на его языке. Давайте учиться этому! Термины, с которыми вы сталкнетесь, — ключевые, вы будете сталкиваться с ними дальше и в курсе, и на практике.

 

  1. Давайте запомним, как обозначаются термины.

 

Объект, sample

X(sample)

Ответ или целевая переменная

Y( target)

Прецедент

Обучающая выборка

Размер выборки

l

Модель

a(x)

Вес

w_1*широта_посадки

 

  1. А теперь давайте вспомним, что обозначает каждый термин.

 

Объект, sample

X(sample)

Для чего мы хотим сделать предсказание

Ответ или целевая переменная

Y( target)

Что мы хотим предсказать

Прецедент

 

Это пара «объект — целевая переменная»

Обучающая выборка

Совокупность всех объектов, для которых мы хотим сделать предсказание

Размер выборки 

l

Сколько объектов у нас есть для обучения

Модель

a(x)

Формула, которая учитывает признаки объекта, итог которой — прогноз

Веса

w_1*широта_посадки

Обозначают, как сильно факторы влияют на целевую переменную