Наука о данных

Тема 9: Модуль 9: интерпретация результатов

Урок 1: Как выглядит документация для ML-проекта

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?

Что войдет в документацию 

 

A/B-тестирование и проверка влияния модели на процессы и показатели проведены. По сути, основной этап работ с участием дата-саентиста окончен. Дальше нужно решить, применять ли модель на практике, а специалист передаст документацию с основной информацией о ходе и результатах проекта.

 

Вот пример краткого оглавления и содержания такой документации — для удобства разберем ее на примере уже известной вам из видео задачи предсказания LTV — прибыли, которую компания получит с клиента за все время работы с ним. 

 

Заключение

Это краткий вывод о результатах проекта. Например, он может звучать так:

 

«В ходе первичного исследования возможностей прогнозирования Life Time Value (LTV) получена предсказательная модель, дающая прогноз со средним абсолютным процентным отклонением от факта (MAPE), равным 9% процентным пунктам фактического значения. То есть в среднем прогноз от настоящего LTV для клиента отличается на девять пунктов».

 

Заметьте, что заключение, как и вся остальная документация, не содержит выводов об экономической целесообразности проекта — ее определяете вы.

Описание задачи заказчика

В этом разделе задача описывается с точки зрения бизнеса: зачем нужно прогнозировать LTV, почему это важно для компании и к каким бизнес-результатам может привести.

Постановка задачи машинного обучения

Задача описывается в терминах машинного обучения: например, мы указываем, что прогнозирование LTV — это задача регрессии.

Описание данных

Это отчет о данных, которые были получены от заказчика или собраны самостоятельно: их объеме, источниках, качестве, разделении на выборки и так далее.

Исследование предсказательной силы и выбор наиболее значимых переменных

Это отчет о том, как обучались разные алгоритмы, как хорошо каждая модель работала на обучающей выборке и какие признаки оказали самое сильное влияние на прогноз.

Выбор модели и исследование качества прогноза

Это отчет о проверке моделей кросс-валидацией — обычно результаты собираются в одну таблицу.

Возможности для улучшения качества прогноза

Набор предложений о том, как можно улучшить модель: например, это могут быть рекомендации по изменению процесса сбора данных.

 

Как читать отчет о качестве прогноза

 

Постараемся вспомнить, как анализировать качество моделей.

 

Итак, ниже представлена сравнительная таблица результатов для задачи предсказания LTV клиентов: дата-саентист натренировал 5 моделей на базе алгоритмов машинного обучения.

 

Модель

RMSE

MAE

MAPE

R^2

Случайный лес (топ-15 признаков)

67

64

9,67%

81%

Случайный лес (все признаки)

65

61

9,58%

82%

Линейная регрессия

62

58

9,16%

84%

Ридж-регрессия

62

58

9,16%

84%

Лассо-регрессия

63

58.5

9,35%

84%

 

Задание. Изучите таблицу и отметьте две модели с наилучшим результатом.

 

  1. Случайный лес (топ-15 признаков)
  2. Случайный лес (все признаки)
  3. Линейная регрессия
  4. Ридж-регрессия
  5. Лассо-регрессия

 

Правильный ответ: модели 3 и 4. Помните, чем меньше показатели RMSE, MAE и MAPE и чем больше R^2 — тем лучше. При этом из двух моделей с лучшими показателями дата-саентист будет рекомендовать использовать линейную регрессию — она проще в применении.