Наука о данных
Тема 9: Модуль 9: интерпретация результатовУрок 1: Как выглядит документация для ML-проекта
- Видео
- Тренажер
- Теория
Что войдет в документацию
A/B-тестирование и проверка влияния модели на процессы и показатели проведены. По сути, основной этап работ с участием дата-саентиста окончен. Дальше нужно решить, применять ли модель на практике, а специалист передаст документацию с основной информацией о ходе и результатах проекта.
Вот пример краткого оглавления и содержания такой документации — для удобства разберем ее на примере уже известной вам из видео задачи предсказания LTV — прибыли, которую компания получит с клиента за все время работы с ним.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Как читать отчет о качестве прогноза
Постараемся вспомнить, как анализировать качество моделей.
Итак, ниже представлена сравнительная таблица результатов для задачи предсказания LTV клиентов: дата-саентист натренировал 5 моделей на базе алгоритмов машинного обучения.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Задание. Изучите таблицу и отметьте две модели с наилучшим результатом.
- Случайный лес (топ-15 признаков)
- Случайный лес (все признаки)
- Линейная регрессия
- Ридж-регрессия
- Лассо-регрессия
Правильный ответ: модели 3 и 4. Помните, чем меньше показатели RMSE, MAE и MAPE и чем больше R^2 — тем лучше. При этом из двух моделей с лучшими показателями дата-саентист будет рекомендовать использовать линейную регрессию — она проще в применении.