Наука о данных

Тема 6: Модуль 6: метрики качества

Урок 1: Как проверить качество модели с помощью метрик

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?

Почему мы выбираем метрику на самом старте проекта

 

Представьте, что вы сотрудничаете с дата-саентистом по своему проекту. Ваше сотрудничество — это вариант отношений «заказчик — подрядчик», а о ключевых вещах и показателях в этом случае принято договариваться «на берегу». Метрика — один из таких ключевых показателей: с ее помощью вы будете оценивать результат работы алгоритма. Поэтому в процессе первоначального обсуждения проекта вопрос о метрике всплывет обязательно.

 

Давайте вспомним общую схему, по которой можно вести диалог и формулировать запрос к специалисту, и уточним ее, добавив в конец еще один шаг — выбор метрики.

 

Шаг, который нужно сделать

На примере это звучит так:

 

Определите бизнес-задачу

Вы: Компании нужно поднять выручку на 5% до конца года и…

Расскажите о конкретных шагах по ее достижению

Вы: … и для достижения этой цели мы хотим допродавать существующим клиентам продукты, которые будут удачно сочетаться с теми, что они уже у нас покупают. Но чтобы вероятность дополнительной покупки была высокой, рекомендации продуктов должны быть по-настоящему релевантными и качественными (по прикидкам отдела маркетинга, чтобы достичь показателей, мы должны убедить каждого десятого клиента).

Определите, можно ли решить задачу с помощью машинного обучения

Дата-саентист: Можно проанализировать текущую базу клиентов, выявить их поведенческие паттерны и объединить клиентов со схожими паттернами в отдельные сегменты. Затем для каждого сегмента подобрать наиболее релевантные продукты.

Определите, что у вас с данными, целевой переменной, объектами и прочим

Вы: У нас есть CRM  (англ. Customer Relationship Management, система управления взаимоотношений с клиентами) и другие источники данных о клиентах — мы знаем, что и с какой частотой они покупали ранее, откуда они, какими еще услугами и продуктами компании пользовались или пользуются в их домохозяйстве.

 

Дата-саентист: По идее, мы можем набрать достаточно признаков, а модель сама определит их веса и сгруппирует клиентов. Здесь угадывается задача кластеризации.

Определите метрику качества

Дата-саентист: Итак, решено: мы строим рекомендательную систему. Остается понять, как мы определим, что алгоритм подсказывает именно то, что нужно людям? По какой метрике будем оценивать качество?

 

Чтобы вы могли ответить на этот вопрос, в модуле мы изучим основные метрики машинного обучения.

Метрики для задач регрессии: какие бывают, плюсы и минусы

Название метрики 

Что показывает и когда 

нужна 

Плюс 

Минус 

Средняя абсолютная ошибка (MAE) 

Помогает оценить 

абсолютную ошибку — то, 

насколько число в 

прогнозах разошлось с 

реальным числом. 

Удобно трактовать — погрешность 

измеряется в тех же единицах, что и 

значения целевой переменной. 

Одинаково оштрафует алгоритм за 

расхождение — например, в 2 и 200 единиц. 

 

Не поможет, если нужно будет сравнить две 

модели, предсказывающие одно и то же по 

разным признакам. 

Среднеквадратическая ошибка (MSE) 

Эти метрики отличаются 

ровно одной 

математической операцией, 

поэтому в жизни не 

выделяются в отдельные 

сущности и используются 

сообща для оценки ошибки 

в прогнозах. 

Каждая ошибка имеет свой вес, и 

большие расхождения более заметны 

за счет возведения в степень. ​Способ 

ее расчета позволяет усиливать 

штраф за большие расхождения в 

прогнозах. 

Менее удобна для понимания, потому что 

измеряется в квадратных единицах. 

 

Не поможет, если нужно сравнить две модели, 

предсказывающие одно и то же по разным 

признакам. 

Корень из среднеквадратической 

ошибки (RMSE) 

Имеет те же преимущества, что и 

MSE, но более удобна для понимания 

— погрешность измеряется в тех же 

единицах, что и значения целевой 

переменной. 

Не поможет, если нужно сравнить две модели, 

предсказывающие одно и то же по разным 

признакам. 

Средняя абсолютная ошибка в 

процентах (MAPE) 

Позволяет 

абстрагироваться от 

конкретных цифр и быстро 

понять, на сколько 

процентов разошлись 

прогноз и результат. 

Легко интерпретировать и можно 

вылавливать ошибки разного веса 

там, где MSE и MAE показали бы 

одинаковое расхождение для двух 

разных случаев. 

Не подходит для задач, где нужно работать с 

реальными единицами измерения: рублями, 

штуками, минутами и прочим. 

Коэффициент детерминации (R^2) 

Помогает понять, какую 

долю разнообразия данных 

модель смогла объяснить. 

Можно сравнивать модели, 

обученные на разных данных. 

 

С ней легко оценить качество модели 

(если результат прогнозов от 0.5 и 

выше — все хорошо). 

Чувствительна к добавлению новых данных.