Наука о данных

Тема 10: Модуль 10: заглянем в будущее

Урок 1: Куда развиваться дальше и связь с другими профессиями

  • Видео
  • Тренажер
  • Теория
Заметили ошибку?

Человечество уже сгенерировало 33 000 000 000 000 000 000 000 байт данных

 

За ближайшие годы эта цифра вырастет в 5 раз.

 

Вы уже могли слышать фразу «данные — новая нефть». Многие трактуют ее так: сегодня каждый человек владеет собственной «скважиной», которая генерирует данные. Это верно, но лишь отчасти — сырая нефть не стоит очень дорого и мало для чего годится. Гораздо больше ценится результат ее переработки: продукты на основе нефти имеют понятную добавленную стоимость и проникли буквально всюду — от топлива для многих видов транспорта и пластика в любых приборах до полиэстровых нитей в нашей одежде и полиэтиленовой упаковки, в которой мы храним пищу.

 

Сырые данные тоже не стоят очень много. Благодаря компьютерам, программам и интернету человечество построило инфраструктуру для их «добычи» и продолжает накапливать информацию в геометрической прогрессии. Осталось сделать следующий шаг. Чтобы эти массивы начали приносить реальную пользу, людям нужно научиться их правильно хранить (за это отвечает область data governance), а затем — правильно перерабатывать: это сферы интересов дата-инженеров и дата-саентистов. 

 

Пока правильно выстраивать эти процессы учится лишь узкий круг ИТ- и околоИТ гигантов и стартапов. Но еще при нашей жизни машинное обучение и работа с данными придут в каждую отрасль, где используются компьютеры, а продукты и сервисы на их основе станут столь же привычными, как электричество, обычные приложения или магазинный пакет, который сделан из отходов производства нефти.

 

Присмотритесь к этим областям: они станут еще более привлекательными благодаря ИТ

 

Машинное обучение и большие данные — это новый виток развития информационных технологий, а отрасль ИТ сегодня не существует сама по себе: она помогает развивать и совершенствовать другие сферы нашей деятельности. Ниже мы собрали 4 курса — они расскажут вам о направлениях, которые в ближайшее время существенно изменятся или «выстрелят» под влиянием новых технологий.

 

IIoT: индустриальный интернет вещей. К глобальным каналам связи сегодня подключаются не только люди, но и целые города, транспортные системы и предприятия. Их «опутывают» сотни и тысячи устройств, содержащих датчики и миниатюрные компьютеры. Эти устройства собирают данные о событиях, которые мы раньше не могли контролировать в реальном времени.

 

Работая с этой информацией, мы можем научиться экономить ценные ресурсы, бороться с пробками, улучшить безопасность домов, школ и офисов — остается лишь научиться доставать идеи улучшений из массивов больших данных. Этот курс расскажет вам о трех основных сферах применения промышленного интернета вещей и о том, как и для чего в них собираются данные.

 

Основы маркетинга и цифровых коммуникаций. За XX век из области, где многое делалось по интуиции, маркетинг превратился в стройную систему и практически научную дисциплину. Решения в нем принимаются на основе данных, а методы сегментации аудиторий и рекомендательные системы, алгоритмы для которых мы разбирали в этом курсе, уже вовсю применяются на практике.

 

Машинное обучение еще только начинает проникать в эту сферу — в ней еще найдется место для массы идей по работе с данными, а также тысяч светлых голов, способных реализовать эти идеи на практике. В этом курсе вы узнаете, из каких «кирпичиков» строится сильная маркетинговая стратегия, как цифровые решения уже меняют маркетинг, и получите хорошую базу, чтобы предлагать идеи по внедрению машинного обучения в эту сферу.

 

Робототехника. Роботов уже посылают исследовать космос, привлекают к спасательным операциям и другим видам работ, где многое может пойти «не так», а значит, их поведение нельзя целиком запрограммировать. Как вы уже знаете, там, где программирование «в лоб» уже не работает, подходит машинное обучение. 

 

Системы компьютерного зрения и навигации, благодаря которым роботы могут ориентироваться в незнакомом пространстве, работают на базе машинного обучения. И это не далеко не все что делают роботы на основе данных Этот курс даст вам общий обзор отраслей, где роботы активно помогают человеку, а также познакомит с интересным классом роботов-программ — как минимум одного такого использует «Ростелеком»

 

Кибербезопасность. Сегодня данные нужно не только хранить, но и защищать. Утечки информации и вскрытие уязвимостей ИТ-систем уже давно стали обычной темой новостей, а по мере роста объемов и способов применения данных будет расти и интерес злоумышленников к ним.

 

Этот курс в интерактивной форме расскажет вам, как не стать жертвой киберпреступников в быту и на работе, а также защитить свою компанию от новых цифровых угроз.

 

Хочу работать с данными. Куда развиваться дальше?

 

Здорово, если наш курс подтолкнул вас развиваться в этой новой области — здесь свой потенциал смогут реализовать как люди с математическим и техническим опытом, так и те, кто обладает сильными аналитическими способностями и не боится простых формул. Элен Теванян расскажет, каких специалистов сейчас не хватает на рынке в целом, а Сергей Носов — о том, как присоединиться к командам, работающим с данными внутри «Ростелекома».

 

 

 

Ниже мы собрали сводную таблицу с основной информацией о профессиях, которые назвала Элен. Эта таблица поможет вам определиться с выбором, куда двигаться дальше.

 

Название профессии

В чем лучше разбирается

Чем больше занимается

Чем должен владеть

Аналитик (BI-аналитик, Data Analyst и другие синонимы)

Отлично знает продукты и бизнес компании, область, в которой она работает. Разбирается в статистике на базовом уровне.

Визуализация и описательный анализ данных для квартальных, ежегодных и других отчетов. Может выступать заказчиком проектов в сфере машинного обучения — готовить бизнес-требования, тестировать результаты.

Excel, R,

Tableau и пр.

Дата-саентист (Data Scientist, специалист по данным)

Отлично знает математические дисциплины и применяет знания для построения моделей машинного обучения. Глубоко знает статистику.

Сбор и подготовка данных для анализа, работа с большими данными. Создание моделей. Частично может заменить аналитика.

Python/R и другие высокоуровневые языки программирования

 

SQL

 

MapReduce, Hadoop, Spark

Дата-инженер (Data Engineer)

Отвечает за построение, поддержку и оптимизацию инфраструктуры, с которой работают аналитики и дата-саентисты.

Разрабатывает пайплайны — цепочку программных решений для быстрого сбора и представления данных в нужном виде. Встраивает новые данные в пайплайны. Умеет разрабатывать API для работы с данными. Разгружает дата-саентистов от первичной обработки и подготовки данных.

MapReduce, Hadoop, Spark, Aerospike, Redis, Storm

 

Командная строка

 

Python, C++