Наука о данных
Тема 7: Модуль 7: как бороться с переобучениемУрок 1: Как понять, что модель готова к настоящей работе
- Видео
- Тренажер
- Теория
Почему ошибаются обученные модели и как с этим бороться
Хороший алгоритм, как хороший человек, должен учиться регулярно и регулярно же подтверждать свою квалификацию. То, что модель отлично проявила себя на данных из обучающей выборки, еще не значит, что качество ее прогнозов не упадет при первом столкновении с реальностью. Чтобы избежать этого, обычно дата-саентист делит исходные данные на 5–10 «порций», а затем сравнивает качество работы модели на них, чтобы стабилизировать метрики.
Тестирование модели на отложенных выборках и k-блоках — это важный этап, который позволит гарантировать итоговую надежность прогнозов на любых новых данных. Что заказчик должен знать об этом? Какими терминами и знаниями стоит овладеть, чтобы понять, что модель ведет себя подозрительно и нужны дополнительные проверки? Об этом рассказано в видео.