Типичная команда, работающая над проектами в области науки о данных, будет включать специалистов по обработке данных с высокими аналитическими способностями, а также тех, чья роль делает упор на компонент разработки программного обеспечения, связанный с производственным кодом качества. Наконец, в команду могут входить инженеры по большим данным, специалисты по базам данных и лица с сильным исследовательским компонентом, такие как инженеры по машинному обучению и инженеры по обработке естественного языка. Таким образом, по сути, ведущий специалист по данным требует эффективной координации высокотехнологичной команды и глубокого понимания проблем, связанных с различными ролями, составляющими команду.
Идеально для кандидата - опытный менеджер по данным, который работал в команде и имеет как сильные теоретические знания в таких областях, как машинное обучение и прогнозное моделирование, так и очень сильные навыки разработки программного обеспечения. Чтобы быть эффективным лидером, идеальный кандидат также должен обладать отличными коммуникативными навыками, быть хорошо организованным и уметь расставлять приоритеты и планировать таким образом, чтобы снизить многие риски, связанные с проведением исследований и анализом огромных объемов данных. Наконец, лучшие кандидаты также продемонстрируют хорошее понимание услуг, управляемых данными на уровне продукта, и того, как отдельные функции влияют на то, как клиенты взаимодействуют и взаимодействуют с линейкой продуктов компании.
Собеседование с ведущим специалистом по анализу данных должно включать вопросы, которые можно задать при работе с обычным специалистом по данным. Примеры этого можно найти в вопросах ниже. В дополнение к этому, вопросы ведущему специалисту по анализу данных должны быть сосредоточены на лидерских и управленческих навыках:
Вопросы по ролям - Обсудите распространенные ошибки и риски при планировании проекта в области науки о данных, например о построении модели, которая прогнозирует, не выполнит ли клиент банка свой кредит.
- Какой самой большой командой вы когда-либо руководили и с какими трудностями сталкивались?
- У вас есть опыт управления гибкими командами?
- Модель, построенная вашей командой, обеспечивает точность 90%. Что нужно знать, чтобы понять, хорошо это или нет?
- Обсудите продукт на основе данных, который действительно произвел на вас впечатление в последние годы
- Как вы думаете, как стать специалистом по данным? Что вы ищете, когда хотите, чтобы кто-то присоединился к вашей команде?
- Что такое большие данные на самом деле? Вы знакомы с архитектурами больших данных?
- Сверху вашей головы опишите продукт, который использует данные из твиттера для создания чего-то, за что люди могли бы платить деньги.
- Как вы остаетесь в курсе своей работы и какие трудности возникают при этом, когда вы специалист по данным
- Как бы вы оценили такую функцию, как плейлист Discover Weekly Spotify?
10 САМЫХ ПОПУЛЯРНЫХ ВОПРОСОВ НА СОБЕСЕДОВАНИИ ПО НАУКЕ О ДАННЫХ И АНАЛИТИКЕ (Data Scientist)
1. Что такое Data Science? Перечислите различия между обучением с учителем и обучением без учителя.
Ответ: Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и понимания из структурных и неструктурированных данных. Наука о данных объединяет концепции интеллектуального анализа данных, машинного обучения и больших данных.
Обучение с учителем и обучение без учителя - это два метода машинного обучения, которые используются в разных сценариях и с разными наборами данных. Различие между этими двумя методами обучения с учителем - это метод машинного обучения, при котором модели обучаются с использованием помеченных данных. При обучении с учителем модели должны найти функцию сопоставления для сопоставления входной переменной (X) с выходной переменной (Y). Эта форма обучения требует наблюдения для обучения модели, что похоже на то, как ученик изучает вещи в присутствии учителя. Обучение с учителем можно использовать для решения двух типов задач: классификации и регрессии.
Пример: предположим, что есть изображение разных видов животных. Задача модели обучения с учителем - идентифицировать животных и соответственно классифицировать их. Итак, чтобы идентифицировать изображение при обучении с учителем, специалисты по данным предоставят входные данные, а также выходные данные для этого, что означает, что они будут обучать модель по форме, размеру, цвету каждого животного. После завершения обучения модель будет протестирована с предоставлением нового набора животных. Модель идентифицирует животное и прогнозирует результат, используя подходящий алгоритм.
Неконтролируемое обучение - это еще один метод машинного обучения, в котором шаблоны выводятся из немаркированных входных данных. Цель обучения без учителя - найти структуру и закономерности из входных данных. Обучение без учителя не требует присмотра. Вместо этого он самостоятельно находит закономерности в данных.
С обучением без учителя связаны два типа проблем : кластеризация и ассоциация.
Пример: чтобы понять процесс обучения без учителя, мы воспользуемся примером, приведенным выше. Таким образом, в отличие от обучения с учителем, здесь мы не будем осуществлять наблюдение за моделью. Вместо этого просто предоставит входной набор данных модели и позволит модели найти закономерности из данных. С помощью подходящего алгоритма модель обучится и разделит животных на разные группы в соответствии с наиболее схожими характеристиками между ними.
2. Что такое линейная регрессия? Ответ : Линейная регрессия помогает понять линейную связь между зависимыми и независимыми переменными. Линейная регрессия - это алгоритм обучения с учителем, который помогает установить линейную связь между двумя переменными. Один из них является предиктором или независимой переменной, а другой - ответом или зависимой переменной. Линейная регрессия направлена на понимание того, как зависимая переменная изменяется по отношению к независимой переменной. Если есть только одна независимая переменная, то это называется простой линейной регрессией, а если существует более одной независимой переменной, то это называется множественной линейной регрессией.
3. Что лучше всего подходит для текстовой аналитики между Python и R?
Ответ : Python был бы лучшим вариантом для библиотеки Pandas, которая предоставляет простые в использовании структуры данных и высокопроизводительные инструменты анализа данных. R больше подходит для машинного обучения, чем просто для анализа текста. Python работает быстрее для всех типов текстовой аналитики.
4. Объясните алгоритм машинного обучения SVM.
Ответ : SVM означает машину опорных векторов, это алгоритм машинного обучения с учителем, который можно использовать как для регрессии, так и для классификации. SVM пытается построить его в n-мерном пространстве, где значение каждой функции является значением определенной координаты. SVM использует гиперплоскости для разделения разных классов на основе предоставленной функции ядра.
5. Что такое выбросы и как с ними обращаться?
Ответ : Значения выбросов или просто выбросы - это точки данных в статистике, которые не принадлежат определенной совокупности. Значение выброса - это ненормальное наблюдение, которое очень сильно отличается от других значений, принадлежащих набору.
Идентификация выбросов значений может быть произведена с помощью одномерного или другого метода графического анализа. Немногочисленные значения выбросов можно оценить индивидуально, но для оценки большого набора значений выбросов требуется их замена 99-м или 1-м процентилем.
Есть два популярных способа обработки выбросов:
- Чтобы изменить значение так, чтобы его можно было привести в диапазон
- Чтобы просто удалить значение
6. Различные этапы аналитического проекта. Ответ: Ниже приведены многочисленные этапы аналитического проекта:
- Понимание бизнес-проблемы
- Изучение данных и ознакомление с ними
- Подготовка данных к моделированию посредством обнаружения резко отклоняющихся значений, преобразования переменных, обработки пропущенных значений и т. Д.
- Запуск модели и анализ результата для внесения соответствующих изменений или модификаций в модель (итеративный шаг, который повторяется до достижения наилучшего возможного результата)
- Проверка модели с использованием нового набора данных
- Внедрение модели и отслеживание результата для анализа производительности одного и того же
7. Объясните глубокое обучение
Ответ: Deep Learning - это метод нейронной сети, основанный на сверточных нейронных сетях (CNN). Глубокое обучение имеет широкий спектр применений, от фильтрации социальных сетей до анализа медицинских изображений и распознавания речи. Caffe, Chainer, Keras, Microsoft Cognitive Toolkit, Pytorch и TensorFlow - одни из самых популярных фреймворков глубокого обучения на сегодняшний день.
Хотя глубокое обучение существует уже давно, только недавно оно получило всемирное признание:
- Увеличение объема генерации данных из различных источников.
- Рост аппаратных ресурсов, необходимых для запуска моделей глубокого обучения.
8. Какие навыки требуются от специалиста по обработке данных Python?
Ответ:
- Экспериментируйте с Pandas Dataframes, Scikit-learn и N-мерными массивами NumPy.
- Навыки для применения поэлементных векторных и матричных операций с массивами NumPy.
- Способен понимать встроенные типы данных, включая кортежи, наборы, словари и другие.
- Он оснащен дистрибутивом Anaconda и менеджером пакетов Conda.
- Возможность писать эффективные списки, небольшие, чистые функции и избегать традиционных циклов for.
- Знание скрипта Python и оптимизация узких мест
9. Есть ли различия между глубоким обучением и машинным обучением?
Ответ: Да, между глубоким обучением и машинным обучением есть различия. Они указаны ниже:
Глубокое обучение
- Это дает компьютерам возможность учиться без явного программирования. Это дает компьютерам от ограниченных до неограниченных возможностей, при этом ничто серьезное не может быть сделано без программирования, а многие вещи можно сделать без предварительного программирования. Он включает в себя контролируемые, неконтролируемые и подкрепляющие процессы машинного обучения.
Машинное обучение
- Это подкомпонент машинного обучения, связанный с алгоритмами, основанными на структуре и функциях человеческого мозга, которые называются искусственными нейронными сетями. Он включает в себя глубокое обучение как один из компонентов.
10. Почему Tensorflow считается приоритетным в изучении Data Science?
Ответ: Tensorflow считается высокоприоритетным в изучении Data Science, поскольку он обеспечивает поддержку использования компьютерных языков, таких как C ++ и Python. Таким образом, он выполняет различные процессы в области науки о данных для обеспечения более быстрой компиляции и завершения в установленные сроки и быстрее, чем обычные библиотеки Keras и Torch. Tensorflow поддерживает вычислительные устройства, включая CPU и GPU, для более быстрого ввода, редактирования и анализа данных.