Наука о данных

Тема 3: Модуль 3: как обучаются алгоритмы

Урок 1: Как обучаются алгоритмы и от чего это зависит

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?

 

В этом модуле вы узнаете, как ваша бизнес-цель и данные:

 

  • влияют на выбор подхода к обучению модели;
  • превращаются в одну из трех основных задач машинного обучения.

 

А главное, вы научитесь самостоятельно понимать, подходят ли имеющиеся у вас данные под задачу, которую вы хотите решить. Это значительно улучшит взаимопонимание с дата-саентистом.

Как обучаются алгоритмы и от чего это зависит

Ваши данные должны содержать достаточно ценной информации, отвечающей условиям задачи. Иначе велик шанс, что на вопрос о том, кому еще мы можем предложить наш продукт, модель выдаст многозначительное: «42».

 

То, какие данные вы накопили в своем проекте, и то, что вы можете достать внутри компании или у партнеров, зависит от вас, а не от дата-саентиста. Согласитесь, вы не можете прийти к строителю с грудой досок и попросить построить из них каменный дворец. Аналогично нельзя требовать от специалиста по данным додумать то, чего нет в ваших данных. Поэтому так важно хотя бы базово понимать, как ваши ресурсы соотносятся с вашими возможностями и какие подходы обеспечат нужный результат.

 

Разобраться в подходах к машинному обучению довольно просто: изучите эту сравнительную таблицу — и вы лучше поймете, выполнима ли задача, которую вы описали в предыдущем модуле, на данных, которые у вас есть. 



 

 

Обучение с учителем

Обучение без учителя

Для чего лучше подойдет

Если нужно внедрить предиктивные (прогнозирующие) сервисы на базе машинного обучения в существующие и новые продукты либо автоматизировать рутинные, но довольно сложные процессы (например, принятие предварительных решений или предварительная оценка чего-то).

Если не нужно прогнозировать, но есть задача автоматически разобрать накопившиеся массивы неструктурированных «больших» данных или решить любую другую задачу вида «найди то, не знаю что».

Ваши данные

Будут содержать заранее определенную целевую переменную и признаки (если их можно вычленить).

 

То есть данные уже заранее размечены при записи в хранилище, либо вы можете разметить их до обучения.

Не будут содержать целевую переменную, но из них либо можно будет выделить признаки, либо сгенерировать эти признаки.

 

Ваши данные никак не размечены — алгоритм сам должен проанализировать их и постараться найти закономерности.

Ваши алгоритмы учатся

Строить числовые прогнозы или давать четкие ответы (например, определять какой-то объект), опираясь на конкретные примеры.

Находить зависимости между разными объектами или обобщать информацию.

Задачи, которые решают этим подходом, называются…

Регрессия и классификация.

Например, это:

 
  • любые числовые прогнозы (спроса, цен, расходов и пр.);
  • задачи распознавания объектов на фото, видео и т. д.;
  • прогноз вероятности события (уход клиента или сотрудника и т. д.).
 

Мы еще поговорим об этом подробнее в следующей части модуля.

Кластеризация. Например, это:

 
  • группировка пользователей и клиентов с похожим типом потребления, поведения, интересами и другие задачи маркетинговых исследований;
  • задачи модерации;
  • задачи анализа соцопросов и соцсетей.
 

Мы еще поговорим об этом подробнее в следующей части модуля.

 

Это интересно! Мы не будем рассматривать этот аспект в курсе, но если вы сталкивались с новостями «ИИ обыграл человека в игру го», «ИИ научился проходить компьютерную игру не хуже человека» либо просто интересуетесь темой беспилотных автомобилей, то вам будет любопытно узнать, что для решения таких задач используется отдельный вид обучения с учителем — обучение с подкреплением. В этом случае алгоритм погружается в виртуальную среду и взаимодействует с ней, получает «подкрепление» (поощрение за верные ответы или штраф за неверные) и постепенно учится сводить свои ошибочные решения к минимуму.