Наука о данных

Тема 1: Модуль 1: что такое Data Science

Урок 1: Как появилось и зачем нужно машинное обучение

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?


Ниже мы собрали термины, которые часто мелькают в популярных статьях, обсуждениях вокруг темы data science, а также все чаще употребляются в корпоративной среде. С некоторыми вы уже столкнулись при просмотре видео с экспертами. Некоторые наверняка встречались вам в других источниках
 

Искусственный интеллект (ИИ, AI)

Так называют все технологии создания умных программ и всю область науки, которая изучает и моделирует процесс принятия решений и другие интеллектуальные виды человеческой деятельности. В этой сфере заняты как математики, инженеры и программисты, так и биологи, химики и другие специалисты.

Машинное обучение (ML)

Популярная область изучения искусственного интеллекта. Занимается созданием программ, которые не программируются для решения какой-то задачи явно, а обучаются поиску решения, ища закономерности в имеющихся у вас данных. Когда мы видим статью «компания такая-то применила искусственный интеллект», чаще всего речь идет именно об этих методах и технологиях.

Наука о данных (data science)

Сфера, которая занимается вопросами обработки, хранения и интеллектуального анализа данных, созданием алгоритмов машинного обучения (и не только).

Специалист по работе с данными (дата-саентист, data scientist)

Исследователь, который умеет работать с данными и решать с их помощью задачи бизнеса. Одновременно владеет сложным математическим аппаратом и навыками программирования, умеет подобрать и настроить алгоритмы машинного обучения под конкретную задачу.

Модель

Это алгоритм или набор алгоритмов, которые настраивает и обучает дата-саентист.

Искусственная нейронная сеть (нейросеть)

Популярная модель машинного обучения. Она пытается копировать принципы, по которым обрабатывают информацию нервные клетки живого организма.

Глубокое обучение (глубинное обучение, deep learning)

Так называют один из видов машинного обучения с использованием нейросетей, который сегодня часто применяют для задач распознавания речи, визуальных образов, машинного перевода.

Большие данные (big data)

Так называют: 

  • всю ту цифровую информацию, которая накапливается или генерируется в процессе нашей работы, общения и т. д.;
  • подходы к работе с массивами таких неструктурированных данных.

Культура управления корпоративными данными (data governance)

Это стратегия работы с данными на уровне организации. Она позволяет всем заинтересованным лицам быстро понимать, какие данные есть в организации и как они могут быть использованы в интересах бизнеса. 

Процесс сбора и подготовки данных (data engineering)

Это набор конкретных подходов и технологий, на которых строится процесс хранения и обработки данных в компании: из каких источников они собираются, как обогащаются, очищаются от «шумов» и дублей, как хранятся, как и с помощью чего превращаются в готовые автоматические отчеты и так далее.

 

Как появилось и зачем нужно машинное обучение

 

Машинное обучение и работа с данными — это следующий этап развития информационных технологий.

 

В 1980-х годах человечество начало цифровую революцию: компьютеры и программы стали активно внедряться во все сферы нашей жизни. Они кардинально поменяли подход к тому, как мы стали хранить и использовать данные, а также оказались идеальными помощниками в тысяче вещей: программы делают расчеты в таблицах на работе, считают уровень физической активности в приложении на нашем смартфоне.

 

Однако со временем люди столкнулись с двумя проблемами. Во-первых, данных стало слишком много, чтобы мы могли их охватить и проанализировать самостоятельно. Во-вторых, обычные программы, работающие по заранее написанным четким инструкциям, не всегда подходили для анализа информации или внедрения в новую сферу.

 

Мы не можем формализовать многие вещи. Как-то раз древнегреческого философа Платона попросили дать определение, кто такой человек. Тот ответил: «Двуногое животное без перьев». На что Диоген, его оппонент, принес ему ощипанную курицу — животное с двумя ногами и без перьев.
 

Спустя почти 2500 лет проблема осталась. Поставьте эксперимент: попросите коллег или родных рассказать, чем слон отличается от кита, затем — чем кит отличается от кота, а кот от слона. Вы услышите массу разных и по-своему правильных ответов. Однако вывести из них четкие и всегда верные правила сравнения не получится.

 

Нет четких правил — нет инструкции для компьютера. С этой проблемой люди долго сталкивались при попытках создать беспилотный автомобиль. Системы круиз-контроля существовали давно, но были очень ограничены в возможностях. Ведь чтобы программа взяла управление авто полностью на себя, требовалось заложить в нее знание обо всех ситуациях на дороге. А это невозможно: мы не можем заранее предсказать, как поведут себя все автомобили на дорогах, как будут выглядеть все пешеходы и так далее.

 Самостоятельные автопилоты для гражданских авто разрабатывают десятки российских и зарубежных компаний. В 2018–2019 годах такие автопилоты впервые в тестовом режиме водили машины по улицам Москвы и ряда других городов. Так, «Ростелеком» вместе с КамАЗом участвует в разработке беспилотного автобуса.
 

Мы не знаем, в какой момент и с какой скоростью пешеход начнет перебегать дорогу в неположенном месте. Не знаем, как лучше реагировать на начавшее резко перестраиваться такси это будет зависеть от скорости машин, расстояний, числа полос в конкретном месте. Мы не можем прописать четкие сценарии поведения для любых ситуаций на дороге. Но если вы или ваши знакомые учились в автошколе, то знаете, что водителей-людей готовят самих принимать решения на дороге, опираясь на целый набор информации: правила дорожного движения, дополнительные факторы, которые есть на дороге, и свой прошлый, накопленный в поездках уникальный опыт. 

 

Мы можем научить программу саму выводить правила и закономерности. Если какие-то проблемы нельзя решить, можно научиться их обходить. Математики, инженеры, программисты и другие специалисты долго работали над тем, чтобы программы стали самостоятельно искать и запоминать подходящие решения, опираясь на данные, знания и опыт из прошлого. Это достижение и стали называть машинным обучением, а зачастую — и искусственным интеллектом (хотя теперь вы знаете, что это не одно и то же). 

 

Программы уже научились:

 

Видеть и действовать с учетом того, что видят

Слышать нас, говорить с нами, читать и переводить для нас

  • Распознавать изменение ситуации на дороге, чтобы уверенно вести автомобиль
 
  • Распознавать лицо владельца телефона, чтобы разблокировать устройство 
 
  • Распознавать картинку и описывать ее словами, чтобы слепые люди могли прикоснуться к искусству, как и мы с вами
  • Так работают голосовые помощники и «умные колонки» — результат машинного обучения
 
  • Так работают синхронный переводчик голоса в скайпе и текстовые переводчики в браузере
 
  • И даже качественные спам-фильтры в вашей почте — результат машинного обучения

Предсказывать, что мы хотим узнать или увидеть, и подстраиваться под нас

Строить прогнозы и предсказывать результаты разных событий

  • Результаты поисковой выдачи
 
  • Посты в лентах соцсетей
 
  • Рекомендованные видео на YouTube
  • Стоимость и длительность поездки в такси
 
  • Качество стали при следующей выплавке на заводе
 
  • И даже помощь врачам в постановке диагноза

Чтобы решать эти задачи, программам нужно на чем-то учиться. Они делают это на данных из прошлого. Процессом этого обучения и занимается специалист по данным — дата-саентист.