Наука о данных
Тема 1: Модуль 1: что такое Data ScienceУрок 1: Как появилось и зачем нужно машинное обучение
- Видео
- Тренажер
- Теория
Ниже мы собрали термины, которые часто мелькают в популярных статьях, обсуждениях вокруг темы data science, а также все чаще употребляются в корпоративной среде. С некоторыми вы уже столкнулись при просмотре видео с экспертами. Некоторые наверняка встречались вам в других источниках
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Как появилось и зачем нужно машинное обучение
Машинное обучение и работа с данными — это следующий этап развития информационных технологий.
В 1980-х годах человечество начало цифровую революцию: компьютеры и программы стали активно внедряться во все сферы нашей жизни. Они кардинально поменяли подход к тому, как мы стали хранить и использовать данные, а также оказались идеальными помощниками в тысяче вещей: программы делают расчеты в таблицах на работе, считают уровень физической активности в приложении на нашем смартфоне.
Однако со временем люди столкнулись с двумя проблемами. Во-первых, данных стало слишком много, чтобы мы могли их охватить и проанализировать самостоятельно. Во-вторых, обычные программы, работающие по заранее написанным четким инструкциям, не всегда подходили для анализа информации или внедрения в новую сферу.
Мы не можем формализовать многие вещи. Как-то раз древнегреческого философа Платона попросили дать определение, кто такой человек. Тот ответил: «Двуногое животное без перьев». На что Диоген, его оппонент, принес ему ощипанную курицу — животное с двумя ногами и без перьев.
Спустя почти 2500 лет проблема осталась. Поставьте эксперимент: попросите коллег или родных рассказать, чем слон отличается от кита, затем — чем кит отличается от кота, а кот от слона. Вы услышите массу разных и по-своему правильных ответов. Однако вывести из них четкие и всегда верные правила сравнения не получится.
Нет четких правил — нет инструкции для компьютера. С этой проблемой люди долго сталкивались при попытках создать беспилотный автомобиль. Системы круиз-контроля существовали давно, но были очень ограничены в возможностях. Ведь чтобы программа взяла управление авто полностью на себя, требовалось заложить в нее знание обо всех ситуациях на дороге. А это невозможно: мы не можем заранее предсказать, как поведут себя все автомобили на дорогах, как будут выглядеть все пешеходы и так далее.
Самостоятельные автопилоты для гражданских авто разрабатывают десятки российских и зарубежных компаний. В 2018–2019 годах такие автопилоты впервые в тестовом режиме водили машины по улицам Москвы и ряда других городов. Так, «Ростелеком» вместе с КамАЗом участвует в разработке беспилотного автобуса.
Мы не знаем, в какой момент и с какой скоростью пешеход начнет перебегать дорогу в неположенном месте. Не знаем, как лучше реагировать на начавшее резко перестраиваться такси — это будет зависеть от скорости машин, расстояний, числа полос в конкретном месте. Мы не можем прописать четкие сценарии поведения для любых ситуаций на дороге. Но если вы или ваши знакомые учились в автошколе, то знаете, что водителей-людей готовят самих принимать решения на дороге, опираясь на целый набор информации: правила дорожного движения, дополнительные факторы, которые есть на дороге, и свой прошлый, накопленный в поездках уникальный опыт.
Мы можем научить программу саму выводить правила и закономерности. Если какие-то проблемы нельзя решить, можно научиться их обходить. Математики, инженеры, программисты и другие специалисты долго работали над тем, чтобы программы стали самостоятельно искать и запоминать подходящие решения, опираясь на данные, знания и опыт из прошлого. Это достижение и стали называть машинным обучением, а зачастую — и искусственным интеллектом (хотя теперь вы знаете, что это не одно и то же).
Программы уже научились:
|
|
|
|
|
|
|
|
Чтобы решать эти задачи, программам нужно на чем-то учиться. Они делают это на данных из прошлого. Процессом этого обучения и занимается специалист по данным — дата-саентист.