В этой статье мы разберем значение науки о данных, навыков специалистов по данным и дадим вам совет о том, как лучше всего выбрать сотрудника на роль дата сайнс.
По данным исследовательской компании Forrester, к 2021 году общая стоимость компаний, ориентированных на анализ данных, будет составлять 1,8 триллиона долларов, что на 333 миллиарда долларов в 2015 году. Эти «идеи» основаны на данных, которые играют ключевую роль в оказании помощи всему миру. В том же отчете говорится, что организации, управляемые данными, растут в 8 раз быстрее, чем мировой ВВП.
Несмотря на трудности в самоопределении данной области, она не замедлила создание новых программ для выпускников с «наукой о данных» в их названиях. Очевидно, что позиции в этой области находятся на критической траектории своей жизни. Благодаря масштабируемости поля ей уделяется необходимое внимание. Но как мы должны нанимать для этого, не имея возможности правильно понять, что это такое?
Что такое наука о данных
1. Что такое Data Science? В своей простейшей форме наука о данных - это дисциплина, позволяющая сделать данные полезными. Концепция науки о данных заключается в том, чтобы «объединить статистику, анализ данных, машинное обучение и связанные с ними методы», чтобы «понять и проанализировать реальные явления» с помощью данных.
Традиционно данные, которые мы могли оценить, были в основном структурированными и небольшими по размеру, и их можно было анализировать с помощью простых инструментов бизнес-аналитики. В отличие от данных в традиционных системах, которые в основном были структурированными, сегодня большая часть данных неструктурирована или частично структурирована. Этот спрос усилил роль специалиста по обработке данных.
1.1 Какова роль специалиста по данным? Специалист по данным должен устанавливать стратегию работы с данными компании, которая включает настройку всего, от проектирования и инфраструктуры для сбора данных и ведения журналов до вопросов конфиденциальности. Они решают, какие данные будут доступны пользователю , как данные будут использоваться для принятия решений и как они будут встроены в продукт. Они также будут заниматься патентованием инновационных решений и постановкой исследовательских целей. Список их основных обязанностей включает:
- Обобщать всю доступную информацию, статистику и данные организации,
- Сбор информации о потребностях ИИ в организации,
- Анализировать данные и находить потенциальные применения с помощью ИИ (иногда называемого исследовательским анализом данных),
- Объяснять шаблоны данных бизнес-ориентированным коллегам и клиентам (процесс, известный как рассказывание историй),
- Спроектировать и подготовить модели машинного обучения,
- Оценивать эффективность моделей в производственной среде.
Если вы не знали, модель машинного обучения - это программа, обученная распознавать определенные типы шаблонов. Можно обучить модель на наборе данных, предоставив ей алгоритм, который она может использовать, чтобы рассуждать и учиться на этих данных.
Главный специалист по обработке данных должен управлять командой инженеров, ученых и аналитиков и должен общаться с руководством компании, включая генерального директора, технического директора и руководителей продукта. Он также будет заниматься патентованием инновационных решений и постановкой исследовательских целей.
Специалиста по данным оценивают как «человека, который лучше разбирается в статистике, чем любой инженер-программист, и лучше в разработке программного обеспечения, чем любой статистик».
1.2 Похож ли специалист по анализу данных на какие-либо другие должности? «Сделать данные полезными» способны самые разные аналитики, от инженера по обработке данных до качественного эксперта. Хотя все эти роли участвуют в науке о данных, чтобы называть кого-то специалистом по данным, они должны обладать опытом во всех трех областях (аналитика, статистика и ML / IA).
Например, разработчик машинного обучения выполняет часть задач специалиста по данным, но сосредотачивается только на моделях машинного обучения. Позиция специалиста по данным действительно является обобщающим термином, хотя названия должностей никогда не были точным отражением обязанностей человека.
Наука о данных: что важно для ИТ-рекрутера
2. Что важно знать ИТ-рекрутеру о Data Science? 2.1 Как часто меняются окружающая среда / проблемы?
ИТ-рекрутеру следует обратить внимание на то, что ситуация постоянно меняется. Данных всегда становится больше, а проблемы усложняются; поэтому разрабатываются новые методы и обязательно последуют новые рамки.
2.2 Доступно ли много ресурсов / инструментов / технологий (библиотек, фреймворков и т. д.)?
Знание определенных ресурсов и инструментов, безусловно, будет большим преимуществом. В настоящее время на языке Python доступно множество инструментов, однако для R (другого языка программирования) их намного меньше. Некоторые фреймворки глубокого обучения доступны на C ++, поскольку он быстрее и эффективнее с точки зрения памяти, чем Python. В Python некоторые из самых популярных библиотек включают: pandas, Seaborn, plotly, scikit-learn, PyTorch, TensorFlow.
2.3. Что должен знать специалист по обработке данных и какие навыки специалиста по обработке данных являются наиболее важными?
Ожидается, что специалисты по данным много знают о машинном обучении, информатике, статистике, математике, визуализации данных, коммуникации и глубоком обучении. В этих областях есть десятки языков, фреймворков и технологий, которым могут научиться специалисты по данным.
Наука о данных требует навыков статистики и информатики - в этом нет ничего удивительного. Интересно, что в наши дни коммуникативные способности упоминается почти в половине списков вакансий в области науки о данных. Специалисты по обработке данных должны уметь делиться своими идеями и работать с другими. Ниже приведен базовый список того, что делает хорошего специалиста по данным:
- Возможность анализа данных
- Опыт в машинном обучении
- Хорошие коммуникативные навыки
- Опыт использования фреймворков глубокого обучения
- Свободное владение Python или R
2.4. Какой опыт важно искать у дата сайнс специалиста (коммерческий, открытый, научный, академический)?
Что касается исследований, только проекты - академический или научный опыт будет наиболее важным и всесторонним. Но с точки зрения создания серийных моделей - предыдущий опыт работы с другими производственными моделями даст вам лучшее представление.
3. Как проверить навыки специалиста по данным на этапе проверки?
Растущий объем данных означает растущие возможности - все это требует хорошего управления. Проверить навыки на этапе отбора сложно, но сосредоточение внимания на софт скиллс кандидата также может уникальным образом помочь отсеять таланты.
3.1 Что нужно учитывать при просмотре резюме?
Самое важное, что нужно учитывать, - это наличие у кандидата детального опыта в наиболее важных областях. Ключевым моментом здесь является история знакомства с библиотеками математики, статистики, информатики, программирования и машинного обучения. Также жизненно важен предыдущий опыт работы с аналитикой и программированием в области науки о данных.
Что отличает хорошего специалиста по данным от отличного, так это навыки межличностного общения, то есть способность общаться и сотрудничать с самыми разными людьми. Кандидат также должен обладать хорошей деловой хваткой или всесторонним пониманием основ и принципов бизнеса.
Обязательно проверьте, указал ли кандидат, как его работа положительно повлияла на увеличение продаж, рентабельности инвестиций и т. д. Для лучших кандидатов очень важно включить количественные свидетельства своих достижений.
Если кандидат, которого вы ищете, является недавним выпускником, сосредоточьтесь на его навыках и соответствующей курсовой работе или стажировке, которые они, возможно, прошли, чтобы оценить их широту знаний.
3.2 Какие термины глоссария важно знать?
Исследовательский анализ данных - он состоит из очистки данных, исследования шаблонов данных и ручного обнаружения шаблонов в данных.
Рассказы данных - это относится к описанию и визуализации шаблонов данных для лиц без технических знаний.
Классическое машинное обучение - решение задач с использованием таких моделей, как линейная или логистическая регрессия, деревья решений, случайные леса, повышение, машины опорных векторов, неотрицательная матричная факторизация, K-средние, k-ближайшие соседи
Глубокое обучение - решение задач с помощью нейронных сетей. Некоторые типы нейронных сетей включают сверточные нейронные сети и рекуррентные нейронные сети.
Библиотеки анализа и обработки данных: Python: NumPy, pandas В R: dyplr, tidyr
Распределенные библиотеки анализа и обработки данных: Python: Dask В Scala, Java и Python: Spark
Библиотеки визуализации данных: Python: Seaborn, Plotly, Matplotlib В R: ggplot2
Общие библиотеки машинного обучения: Python: scikit-learn В R: caret, e1071
Библиотеки глубокого обучения: Python: Keras, Tensorflow, PyTorch В R: Nnet В C ++: Caffe
3.3 Какие сертификаты доступны и соблюдаются? Насколько они полезны для определения навыков специалистов по данным?
Давайте сразу проясним одну вещь: вам не нужен какой-либо сертификат по анализу данных, чтобы устроиться на работу в области науки о данных. Это помогает, но рекрутеров не слишком волнуют.
Однако примерно половина знаний о машинном обучении носит теоретический характер, поэтому сертификаты в этой области весьма применимы. Остальные 50% прибывают из опыта, поэтому создаются любые производственные модели или соревнования Kaggle. Сертификаты обычно не проверяют навыки бизнес-анализа или общие навыки работы с людьми. Лучшие курсы, которые мы нашли, приведены ниже.
- Сертифицированный специалист по аналитике (CAP)
- Сертифицированный сотрудник Cloudera: аналитик данных
- Сертифицированный специалист Cloudera: инженер по данным CCP
- Совет по науке о данных Америки (DASCA) Старший научный сотрудник (SDS)
- Американский совет по науке о данных (DASCA), главный специалист по данным (PDS)
- Программа Dell EMC Data Science Track
- Сертифицированный Google профессиональный инженер по данным
- Данные Google и машинное обучение
- Профессиональный сертификат IBM Data Science
- Microsoft MCSE: управление данными и аналитика
- Сертифицированный специалист по данным Microsoft Azure Data Scientist
- Открытый сертифицированный специалист по данным (Open CDS)
- Сертифицированный специалист по продвинутой аналитике SAS
- Сертифицированный специалист по работе с большими данными SAS
- Сертифицированный специалист по данным SAS
- Сертификаты, полученные от Coursera, edX или Udacity, также пользуются большим уважением.
3.4 Какие еще строки в резюме могут показать навыки дата сайентиста?
Принятие к сведению участия кандидатов в конференциях в качестве докладчиков может указывать на необходимые навыки, чтобы быть адекватным рассказчиком, что является важным требованием в науке о данных. Очевидно, что обязательно быть экспертом в технической части вещей, но не менее важно иметь возможность объяснить свои выводы тем, у кого нет ваших технических знаний.
Участие в соревнованиях по машинному обучению также может быть большим преимуществом. В современном мире одного хорошего резюме может быть недостаточно, чтобы получить работу в ит. Особенно, если вы претендуете на должность специалиста по данным. Поскольку мы живем и процветаем в разгар цифровой революции, само собой разумеется, что процесс найма будет включать и это.
Просмотр учетных записей кандидата в LinkedIn и GitHub может быть полезен для оценки внешнего вида кандидата, а также для оценки его навыков в проектах с открытым исходным кодом. Вы можете решить, соответствуют ли проекты текущей роли. Это поможет вам визуализировать профиль кандидата, чтобы вы могли структурировать вопросы определенным образом. Вы также сможете определить, отражаются ли навыки специалиста по данным, упомянутые кандидатом в его / ее резюме, в его профиле GitHub.
4. Техническая проверка навыков работы с данными во время технического интервью по телефону / видео.
Сложно полагаться только на слова резюме. В конце концов, важно бросить вызов кандидату, чтобы определить, действительно ли он обладает необходимыми навыками. Даже если это просто телефонное собеседование, оно может помочь вам понять, как кандидат думает и решает проблемы, связанные с его ремеслом.
4.1 Вопросы, которые вы должны задать об опыте специалиста по данным . Зачем вам задавать каждый из этих вопросов?
- Какие проекты DS вы выполняли и в какой степени вы участвовали в этих проектах?
Причина: поскольку наука о данных - это чрезвычайно широкая позиция, часто с разными обязанностями; некоторые кандидаты могут заниматься только анализом данных и рассказыванием историй или только собирать требования и создавать модели машинного обучения. Опыт кандидата должен соответствовать обязанностям должности, на которую вы нанимаете. Этот вопрос действительно направлен на проверку уровня навыков кандидата.
Как ваша работа оказала положительное финансовое влияние на организацию благодаря проектам, в которых вы принимали участие? Причина: роль специалиста по данным - это должность, которая требует хорошего понимания бизнес-требований и условий. Ищите ответы, которые показывают конкретные измерения, например, «маркетинговая команда смогла сократить расходы на 10% благодаря нашим результатам» или «мы снизили оборот клиентов на 5% благодаря нашим новым возможностям удержания».
- Какие библиотеки и методы программирования вы использовали?
Причина: специалисты по обработке данных могут использовать самые разные инструменты для достижения тех же результатов. Это может зависеть от выбранного языка программирования, внутренней инфраструктуры компании и размера набора данных, с которым работал кандидат. Кандидат, вероятно, будет лучше всего работать с инструментами, с которыми у него есть предыдущий опыт.
4.2 Вопросы, которые вы должны задать о знаниях и мнениях специалиста по данным. Зачем вам задавать каждый из этих вопросов?
- Как вы можете проверить правильность работы модели?
Причина: идеальная методология - разделить набор данных на разделы: обучающий набор, набор проверки и набор тестов. Обучающая выборка - единственная доступная модели и основа тренировочного процесса. Параметры модели устанавливаются с использованием набора для проверки, а эффективность модели проверяется на наборе тестов.
- Как бы вы проверили, хорошего ли качества данные в наборе данных?
Причина: специалисту по данным, скорее всего, придется работать с набором данных, собранным внутри компании, который может содержать отсутствующие значения, ошибки или несоответствия - это признаки беспорядочных данных. Чтобы найти такие проблемы, специалист по данным должен выполнить исследовательский анализ данных, чтобы обобщить их основные характеристики.
- Что такое повышение и в чем его преимущества?
Причина: модели повышения - это древовидные модели, состоящие из групп деревьев, которые обучаются последовательно. Модели повышения в настоящее время являются наиболее эффективными с высокой точностью, относительно коротким временем обучения, уменьшенным использованием памяти и средними необходимыми наборами обучающих данных (по сравнению с методами глубокого обучения).
Задавайте вопросы, связанные с бизнес-проблемами, для решения которых вы набираете сотрудников. Как и все остальные, специалисты по данным лучше всего работают в тех областях, с которыми они знакомы. Например, не каждый кандидат может «чувствовать» (или интересоваться, или желать изучать) внутреннюю работу заводского оборудования (проблемы профилактического обслуживания), медицинские термины (создание ИИ для медицинской промышленности) или предпочтения клиентов (рекомендательные системы для электронной коммерции).
4.3. Поведенческие вопросы, которые следует задать специалисту по анализу данных. Зачем вам задавать каждый из этих вопросов?
- Как вы справляетесь с разногласиями с коллегами?
Причина: специалист по анализу данных должен обладать хорошими коммуникативными и межличностными навыками (т. е. сочувствием), поскольку его роль основана на сборе данных от коллег и поиске областей для улучшения в своей организации или обществе.
- Где вы можете найти информацию о новых методах обработки данных или кейсе?
Причина: поскольку область науки о данных постоянно развивается и растет, эта роль требует постоянных исследований, чтобы оставаться в курсе последних обновлений и решать проблемы наиболее эффективным способом. Достойны любые из этих источников: доклады конференций, доклады семинаров, MOOC, блоги компаний, занимающихся DS, встречи сообщества DS, Facebook или почтовые группы с темой DS или обучение у наставника.
- Что вы считаете своим самым большим успехом и самой большой неудачей в области DS?
Причина: это довольно общий вопрос, но он показывает навыки самопознания и саморефлексии кандидата. И то, и другое необходимо в процессе обучения, который является важной частью работы в области науки о данных.
Рынок
вакансий для Data Science специалистов растет с каждым днем! Работа в дата сайнс становится не трендом на один или два года, а востребованной профессией на десятки лет!