Наука о данных

Тема 7: Модуль 7: как бороться с переобучением

Урок 1: Как понять, что модель готова к настоящей работе

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?

Почему ошибаются обученные модели и как с этим бороться

 

Хороший алгоритм, как хороший человек, должен учиться регулярно и регулярно же подтверждать свою квалификацию. То, что модель отлично проявила себя на данных из обучающей выборки, еще не значит, что качество ее прогнозов не упадет при первом столкновении с реальностью. Чтобы избежать этого, обычно дата-саентист делит исходные данные на 5–10 «порций», а затем сравнивает качество работы модели на них, чтобы стабилизировать метрики.

 

Тестирование модели на отложенных выборках и k-блоках — это важный этап, который позволит гарантировать итоговую надежность прогнозов на любых новых данных. Что заказчик должен знать об этом? Какими терминами и знаниями стоит овладеть, чтобы понять, что модель ведет себя подозрительно и нужны дополнительные проверки? Об этом рассказано в видео.