Наука о данных
Тема 4: Модуль 4: как алгоритмы решают вашу задачуУрок 1: Алгоритмы: простой классификатор и виды регрессии
- Видео
- Тренажер
- Теория
Как быстро понять, какой результат вы извлечете из данных: регрессия, классификация, кластеризация
Давайте подробнее остановимся на теме обучения с учителем и без. Вы уже знаете, что каждому из подходов соответствует определенный класс задач. А каждому классу задач соответствует определенный результат, который вы можете получить как заказчик. Понимание того, к какому классу относится ваша задача, поможет вам максимально четко доформулировать цель и ожидание, на которые и будет дальше ориентироваться дата-саентист.
Вы уже понимаете, что фраза «Мы хотим увеличить выручку, для этого нужно продавать больше» — это еще не четкая задача для специалиста по работе с данными. А вот фразы «Мы хотим продавать больше, для этого нам нужно строить прогноз, какую скидку давать каждому клиенту, чтобы максимизировать средний чек» и «Мы хотим продавать больше, для этого нам нужно рекомендовать человеку товары, которые он, вероятнее всего, положит в корзину вместе с товаром, страницу которого сейчас смотрит» — это уже не просто две разные фразы. Это две разные задачи. Два разных результата. И по-разному подготовленные данные. Давайте разберемся на примерах.
Регрессия — получаем ответ в виде чисел и графиков функций
Прогнозирование времени поездки на такси из рассказа Элен на видео — это классическая задача регрессии. То есть с помощью регрессии мы можем предсказывать какое-то число, но не сможем установить причинно-следственные связи между событиями, которые и привели к появлению прогноза.
Примеры реальных задач регрессии, которые решает бизнес:
- прогноз изменения цен на квартиры в зависимости от изменения инфраструктуры и экологии района;
- прогноз заработной платы по описанию вакансии;
- прогноз спроса на товар в ближайшую неделю с учетом поведения пользователей, сезонности и исторических продаж;
- прогноз объема потребления любых ресурсов для домохозяйств;
- прогноз суммы компенсации по страховке.
Классификация — получаем ответ «вероятно, да/вероятно, нет», строим прогнозы событий и рекомендации
Распознавание объектов на фото или предсказание вероятности ухода сотрудника — типичные задачи классификации. Они также требуют предварительной разметки данных для обучения, но в этом случае мы описываем переменную не числом, а относим ее к какой-то категории, как сделали бы с вещами при сортировке.
Задачи классификации встречаются очень часто, поэтому вместо хрестоматийных примеров «определить, кто на фото — котик или собачка», наши эксперты подготовили примеры поинтереснее:
- Предсказание пола для посетителя сайта, о котором мы ничего не знаем.
- Определение типа и языка для неизвестного документа.
- Предсказание — спам или не спам в письме.
- Определение состояния человека по данным электроэнцефалограммы (ЭЭГ).
- Определение подозрительных операций по банковским картам.
Кластеризация — ищем в данных новое, необычное и строим рекомендации. Решаем задачи, в которых нельзя заранее разметить данные
Вы сталкиваетесь с результатами работы алгоритма кластеризации, когда загружаете фото в сеть — в этот момент файл надо сжать, а чем меньше на изображении цветов, тем меньше оно весит. Картинка состоит из пикселей, а это объекты. Алгоритм выделяет пиксели «примерно одинакового» цвета, которые можно заменить на некий «средний» цвет. Каждая такая группа — это кластер. Объекты внутри кластера чем-то похожи между собой, а вот объекты между кластерами значительно отличаются.
Примеры реальных задач кластеризации, которые решает бизнес:
- Группировка домохозяйств по тому, как они потребляют услуги и ресурсы.
- Выделение групп со схожим поведением и интересами среди пользователей.
- Автоматическая группировка сообщений для упрощения работы модераторов и техподдержки.
- Поиск аномальных событий и поведен
Эта информация пригодится, когда вы будете анализировать результаты обучения моделей. Скорее всего, дата-саентист протестирует несколько алгоритмов, после чего отдаст вам отчет с результатами их работы. Отчет будет выглядеть как-то так:
Пока не очень понятно, правда? А ведь именно заказчик должен решить, какой алгоритм или комбинацию алгоритмов он будет использовать дальше. Чтобы уверенно сделать это, нужно разобраться, как работают математика и логика, на которых построены основные модели машинного обучения.
Простые алгоритмы для задач регрессии и классификации
Это нельзя объяснить, это можно только запомнить: алгоритмы линейной и логистической регрессии решают разные классы задач. Линейная модель проводит прямую черту на графике числовых прогнозов так, чтобы эта линия и стала оптимальным прогнозом. Логистическая модель тоже проводит разграничение, но уже между классами, и применяется там, где недостаточно простого линейного классификатора (например, при оценке вероятности).