Главная » IT-индустрия » «Если компания скидывает на Data Scientist петабайты данных в надежде на чудо, то, скорее всего, чуда не случится»

«Если компания скидывает на Data Scientist петабайты данных в надежде на чудо, то, скорее всего, чуда не случится»

Работа с данными – одно из самых приоритетных направлений у большинства зарубежных и российских компаний.

 

Но для принятия взвешенных решений и разработки стратегии на основе данных нужен специалист, который поможет разобраться в массивах информации. Это также подтвердило недавнее исследование IDC и Hitachi Vantara. О профессии Data Scientist, карьерном росте и стресс-факторах рассказала Анна Румянцева, Data Scientist в компании Hitachi Vantara.

Если да, что для этого нужно? Есть ли шанс стать Data Scientist, если ты гуманитарий?

Например, без знания линейной алгебры будет сложно разобраться в устройстве даже самой простой нейронной сети. Анна Румянцева, Data Scientist в компании Hitachi VantaraХорошая математическая база является важным условием для реализации в этой профессии. Но, так или иначе, работать с данными могут люди и с гуманитарным образованием, например, в смежных областях: журналистике данных (Data Journalism) или визуализации (Data Visualization). Методы анализа и процессирования данных очень трудно выучить в свободное время/по вечерам/на выходных без технического образования.

По каким критериям отбирают специалистов на должность Data Scientist?

Он должен уметь работать с базами данных SQL/Git/Github, знать статистику и алгоритмы машинного обучения, основы Hadoop/MapReduce и ETL/Data Engineering, Spark Framework и облачных вычислений. Если говорить о технических навыках, Data Scientist должен уметь программировать в Python/R, а также знать другие языки программирования, например, Java и C/C++.

При этом набор технических навыков и знание алгоритмов может отличаться в зависимости от уровня специалиста (Junior or Senior Data Scientist). Помимо владения технической базой, Data Scientist должен уметь объяснять методы анализа и полученные результаты людям из других профессиональных сфер, а также знать английский язык – без него сейчас вообще никуда.

Можно ли назвать работу Data Scientist стрессовой?

Стресс-факторы в Data Science могут быть связаны с подготовкой данных, объяснением результатов анализа и операционализацией проектов. В каждой профессии уровень стресса зависит от конкретного проекта, дедлайнов и ожиданий руководства.

У Наполеона была сильная армия и грандиозные амбиции по покорению России. В свое время я слышала интересную аналогию, связанную с запуском проектов Data Science и Наполеоном в зимней Москве. Но у армии Наполеона не было нужной одежды для русской зимы, чтобы воплотить свои амбиции. Data Scientists тоже имеют грандиозные амбиции в начале проекта: они намерены перевернуть курс компании с ног на голову и отдать руководство нейронным сетям. Чувствовать себя «поверженным Наполеоном» – это ведь тоже стресс. У Data Scientists тоже может не быть нужного ПО, в связи с чем все намерения могут остаться на стадии Proof of Concept (доказательства концепции).

Верно ли, что Data Scientist должен обладать уникальным сплавом навыков – и технических, и социальных?

Data Scientist – это не ученый в научно-исследовательском институте. Да, социальные навыки в профессии Data Scientist играют очень важную роль. В научной среде люди окружены коллегами со схожим образованием и взглядами, тогда как в компаниях часто работают люди с разными специальностями. Подходы к решению задач в науке и в бизнесе сильно отличаются. Нужно иметь хорошие коммуникативные навыки, чтобы донести свою точку зрения до коллег.

В целом, при интеграции Data Scientist в организацию стоит помнить о нескольких моментах:

  • Data Scientist должен понимать контекст бизнеса;
  • Data Scientist должен понимать ход рабочих процессов;
  • Нужно избавиться от нереалистичных ожиданий в отношении Data Scientist;
  • Существует культурный разрыв между менеджерами, занимающимися управлением компанией, и Data Scientists.

Есть ли в работе Data Scientist место творчеству?

Как и во многих других профессиях, креативное, нестандартное мышление является залогом успеха. Безусловно! Интересная визуализация данных для передачи основных инсайтов? Интересный метод, который можно внедрить в анализ данных? Всё это подразумевает креативный подход. Новые способы решения с помощью Data Science?

Например, создают модели глубокого обучения, которые позволяют изменить вашу фотографию так, чтобы она стала похожа на работу кисти Пикассо. Некоторые Data Scientists находят свободное время и на личное творчество. Как раз недавно одна из таких работ была продана на аукционе Christie's за 432 тысячи долларов. Используя GAN-сети можно получить изображение в определенном стиле.

Могут ли в этом деле людей заменить искусственный интеллект? Как будет трансформироваться профессия Data Scientis?

Многие задачи классического машинного обучения (выбор гиперпараметров, алгоритмов, feature selection) начинают автоматизироваться с помощью методов машинного обучения. В недалеком будущем профессию Data Scientist ждут достаточно значительные перемены.

Я думаю, перспективными направлениями в Data Science в будущем будут:

  • Data Engineering – умение обрабатывать большие объемы данных из разных источников;
  • Узкие специалисты в глубинном обучении, байесовских методах, генетических алгоритмах и т.п.;
  • Data Science в роли бизнес-консультанта. Это человек, умеющий сформировать бизнес-кейсы исходя из задач организации и разработать стратегию для их имплементации.

Есть ли различия между профессиями Data Analyst и Data Scientist?

Data Analyst в основном работает со структурированными данными и применяют статистические методы анализа. Основная разница между Data Analyst и Data Scientist заключается в объемах анализируемых данных и методах анализа. В своей работе Data Analysts используют Business Intelligence tools (Tableau, Power BI, или даже Excel).

Data Scientist должны уметь работать с более широким спектром платформ. Специфика работы Data Scientist заключается в работе с большими объемами данных (структурированными и неструктурированными) и применением моделей машинного обучения, глубинного обучения, байесовских методов и так далее. Например, я в своей работе в Hitachi Vantara часто использую Pentaho для обработки данных и оркестрации конечного решения.

Как строится карьера при работе Data Scientist?

Также многие Data Scientists после работы в больших компаниях открывают свои стартапы, предлагая консалтинг в области Data Science, разрабатывая новые продукты или платформы. Очевидные пути развития карьеры – это путь к Director of Data Science & Analytics (Директор по науке о данных и аналитике), Chief Data Scientist (Главный специалист по данным), Chief Information Officer (Директор по информационным технологиям), Chief Technology Officer (Директор по технологиям).

Какие обязанности выполняет Data Scientist в компании?

В основном обязанности Data Scientist в компании заключаются в следующем:

  • Формирование бизнес-кейсов;
  • Понимание того, какие данные в компании могут быть применены к имплементации;
  • Подборка методов, которые могут быть применимы к конкретному бизнес-кейсу;
  • Интеграция и обработка данных;
  • Дата-аналитика с помощью визуализации данных и методов статистического анализа;
  • Создание моделей, их валидация и оценка результатов;
  • Запуск модели в производство и разработка конечного продукта.

В зависимости от структуры команды, некоторые задачи из списка могут выполняться инженерами данных, специалистами по ETL, Solutions Architect и другими специалистами по работе с данным. Все эти обязанности являются достаточно распространенными среди организаций различного профиля.

Поэтому в Hitachi Vantara мы уделяем большое внимание процессу обработки данных с помощью Pentaho и сплоченной работе Data Engineers and Data Scientists. Возможно, сейчас это высказывание покажется немного клишированным, но 60-80% рабочего времени занимает интеграция и обработка данных.

Почему при популярности и высокой оплате труда найти хорошего Data Scientist так сложно? Многие компании жалуются на отсутствие специалистов по Data Science.

А ученые, занимающиеся данными, имеющие академическое образование, сталкиваются с трудностями при адаптации в коммерческой среде и правильном использовании своих навыков. Учитывая шумиху вокруг больших данных и Data Science, многие Data Analysts, которые выполняют несложные аналитические задачи, такие как создание отчетов, дашбордов и простого анализа данных, называют себя Data Scientists.

Если компания нанимает специалиста по Data Science и начинает скидывать на него петабайты данных в надежде на чудо, то, скорее всего, чуда не случится. Кроме того, помимо найма Data Scientist на работу нужно создать инфраструктуру для работы с данными (ПО, процесс доступа к данным, развертывание решений) и разработать стратегию интеграции Data Scientist в рабочий процесс (коммуникации с ИТ, бизнес-персоналом).





Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*

x

Это интересно

«Российская газета»: пользователей Рунета лишат анонимности

Источник: scrf.gov.ru 15:45 18.08.2019 |   331 прочтение Сложность определения источника атаки одной из основных проблем в противодействии кибератакам считают в Совете безопасности России.   Пользователи Интернета в будущем будут лишены анонимности, все их устройства для входа будут идентифицироваться, заявил «Российской газете» ...

ICANN отказывается от использования термина Whois

15:51 18.08.2019 |   663 прочтения Правила популярного инструмента требуют раскрытия части персональных данных регистранта и тем противоречат положениям европейского регламента GDPR.   RU/.РФ. Корпорация ICANN изменила адрес своего сайта, на котором размещен инструмент для поиска данных регистрантов доменных имен, сообщает Координационный ...