Наука о данных

Тема 4: Модуль 4: как алгоритмы решают вашу задачу

Урок 1: Алгоритмы: простой классификатор и виды регрессии

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?

Как быстро понять, какой результат вы извлечете из данных: регрессия, классификация, кластеризация

 

Давайте подробнее остановимся на теме обучения с учителем и без. Вы уже знаете, что каждому из подходов соответствует определенный класс задач. А каждому классу задач соответствует определенный результат, который вы можете получить как заказчик. Понимание того, к какому классу относится ваша задача, поможет вам максимально четко доформулировать цель и ожидание, на которые и будет дальше ориентироваться дата-саентист.

 

Вы уже понимаете, что фраза «Мы хотим увеличить выручку, для этого нужно продавать больше» — это еще не четкая задача для специалиста по работе с данными. А вот фразы «Мы хотим продавать больше, для этого нам нужно строить прогноз, какую скидку давать каждому клиенту, чтобы максимизировать средний чек» и «Мы хотим продавать больше, для этого нам нужно рекомендовать человеку товары, которые он, вероятнее всего, положит в корзину вместе с товаром, страницу которого сейчас смотрит» — это уже не просто две разные фразы. Это две разные задачи. Два разных результата. И по-разному подготовленные данные. Давайте разберемся на примерах.

Регрессия — получаем ответ в виде чисел и графиков функций

 

Прогнозирование времени поездки на такси из рассказа Элен на видео — это классическая задача регрессии. То есть с помощью регрессии мы можем предсказывать какое-то число, но не сможем установить причинно-следственные связи между событиями, которые и привели к появлению прогноза.
 

Примеры реальных задач регрессии, которые решает бизнес:

  • прогноз изменения цен на квартиры в зависимости от изменения инфраструктуры и экологии района;
  • прогноз заработной платы по описанию вакансии;
  • прогноз спроса на товар в ближайшую неделю с учетом поведения пользователей, сезонности и исторических продаж;
  • прогноз объема потребления любых ресурсов для домохозяйств;
  • прогноз суммы компенсации по страховке.

 

Классификация — получаем ответ «вероятно, да/вероятно, нет», строим прогнозы событий и рекомендации

 

Распознавание объектов на фото или предсказание вероятности ухода сотрудника — типичные задачи классификации. Они также требуют предварительной разметки данных для обучения, но в этом случае мы описываем переменную не числом, а относим ее к какой-то категории, как сделали бы с вещами при сортировке.

 

Задачи классификации встречаются очень часто, поэтому вместо хрестоматийных примеров «определить, кто на фото — котик или собачка», наши эксперты подготовили примеры поинтереснее:

 

  • Предсказание пола для посетителя сайта, о котором мы ничего не знаем.
  • Определение типа и языка для неизвестного документа.
  • Предсказание — спам или не спам в письме.
  • Определение состояния человека по данным электроэнцефалограммы (ЭЭГ).
  • Определение подозрительных операций по банковским картам.

 

Кластеризация — ищем в данных новое, необычное и строим рекомендации. Решаем задачи, в которых нельзя заранее разметить данные

 

Вы сталкиваетесь с результатами работы алгоритма кластеризации, когда загружаете фото в сеть — в этот момент файл надо сжать, а чем меньше на изображении цветов, тем меньше оно весит. Картинка состоит из пикселей, а это объекты. Алгоритм выделяет пиксели «примерно одинакового» цвета, которые можно заменить на некий «средний» цвет. Каждая такая группа — это кластер. Объекты внутри кластера чем-то похожи между собой, а вот объекты между кластерами значительно отличаются.

 

Примеры реальных задач кластеризации, которые решает бизнес:

 

  • Группировка домохозяйств по тому, как они потребляют услуги и ресурсы.
  • Выделение групп со схожим поведением и интересами среди пользователей.
  • Автоматическая группировка сообщений для упрощения работы модераторов и техподдержки.
  • Поиск аномальных событий и поведен
     

    Эта информация пригодится, когда вы будете анализировать результаты обучения моделей. Скорее всего, дата-саентист протестирует несколько алгоритмов, после чего отдаст вам отчет с результатами их работы. Отчет будет выглядеть как-то так:

     

    Модель

    RMSE

    MAE

    MAPE

    R^2

    Случайный лес (топ-15 признаков)

    67

    64

    9,67%

    81%

    Случайный лес (все признаки)

    65

    61

    9,58%

    82%

    Линейная регрессия

    62

    58

    9,16%

    84%

     

    Пока не очень понятно, правда? А ведь именно заказчик должен решить, какой алгоритм или комбинацию алгоритмов он будет использовать дальше. Чтобы уверенно сделать это, нужно разобраться, как работают математика и логика, на которых построены основные модели машинного обучения.

     

    Простые алгоритмы для задач регрессии и классификации

    Это нельзя объяснить, это можно только запомнить: алгоритмы линейной и логистической регрессии решают разные классы задач. Линейная модель проводит прямую черту на графике числовых прогнозов так, чтобы эта линия и стала оптимальным прогнозом. Логистическая модель тоже проводит разграничение, но уже между классами, и применяется там, где недостаточно простого линейного классификатора (например, при оценке вероятности).