To main content

Вопросы для собеседования с Data scientist

Управление командой специалистов по обработке данных - это высокотехнологичная и ответственная задача, требующая от кандидата умения на все руки, когда дело доходит до разработки продуктов и архитектур на основе данных.

Типичная команда, работающая над проектами в области науки о данных, будет включать специалистов по обработке данных с высокими аналитическими способностями, а также тех, чья роль делает упор на компонент разработки программного обеспечения, связанный с производственным кодом качества. Наконец, в команду могут входить инженеры по большим данным, специалисты по базам данных и лица с сильным исследовательским компонентом, такие как инженеры по машинному обучению и инженеры по обработке естественного языка. Таким образом, по сути, ведущий специалист по данным требует эффективной координации высокотехнологичной команды и глубокого понимания проблем, связанных с различными ролями, составляющими команду.

Идеально для кандидата - опытный менеджер по данным, который работал в команде и имеет как сильные теоретические знания в таких областях, как машинное обучение и прогнозное моделирование, так и очень сильные навыки разработки программного обеспечения. Чтобы быть эффективным лидером, идеальный кандидат также должен обладать отличными коммуникативными навыками, быть хорошо организованным и уметь расставлять приоритеты и планировать таким образом, чтобы снизить многие риски, связанные с проведением исследований и анализом огромных объемов данных. Наконец, лучшие кандидаты также продемонстрируют хорошее понимание услуг, управляемых данными на уровне продукта, и того, как отдельные функции влияют на то, как клиенты взаимодействуют и взаимодействуют с линейкой продуктов компании.

Собеседование с ведущим специалистом по анализу данных должно включать вопросы, которые можно задать при работе с обычным специалистом по данным. Примеры этого можно найти в вопросах ниже. В дополнение к этому, вопросы ведущему специалисту по анализу данных должны быть сосредоточены на лидерских и управленческих навыках:

Вопросы по ролям
  • Обсудите распространенные ошибки и риски при планировании проекта в области науки о данных, например о построении модели, которая прогнозирует, не выполнит ли клиент банка свой кредит.
  • Какой самой большой командой вы когда-либо руководили и с какими трудностями сталкивались?
  • У вас есть опыт управления гибкими командами?
  • Модель, построенная вашей командой, обеспечивает точность 90%. Что нужно знать, чтобы понять, хорошо это или нет?
  • Обсудите продукт на основе данных, который действительно произвел на вас впечатление в последние годы
  • Как вы думаете, как стать специалистом по данным? Что вы ищете, когда хотите, чтобы кто-то присоединился к вашей команде?
  • Что такое большие данные на самом деле? Вы знакомы с архитектурами больших данных?
  • Сверху вашей головы опишите продукт, который использует данные из твиттера для создания чего-то, за что люди могли бы платить деньги.
  • Как вы остаетесь в курсе своей работы и какие трудности возникают при этом, когда вы специалист по данным
  • Как бы вы оценили такую функцию, как плейлист Discover Weekly Spotify?
10 САМЫХ ПОПУЛЯРНЫХ ВОПРОСОВ НА СОБЕСЕДОВАНИИ ПО НАУКЕ О ДАННЫХ И АНАЛИТИКЕ (Data Scientist)
1. Что такое Data Science? Перечислите различия между обучением с учителем и обучением без учителя.
Ответ: Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и понимания из структурных и неструктурированных данных. Наука о данных объединяет концепции интеллектуального анализа данных, машинного обучения и больших данных.

Обучение с учителем и обучение без учителя - это два метода машинного обучения, которые используются в разных сценариях и с разными наборами данных. Различие между этими двумя методами обучения с учителем - это метод машинного обучения, при котором модели обучаются с использованием помеченных данных. При обучении с учителем модели должны найти функцию сопоставления для сопоставления входной переменной (X) с выходной переменной (Y). Эта форма обучения требует наблюдения для обучения модели, что похоже на то, как ученик изучает вещи в присутствии учителя. Обучение с учителем можно использовать для решения двух типов задач: классификации и регрессии.

Пример: предположим, что есть изображение разных видов животных. Задача модели обучения с учителем - идентифицировать животных и соответственно классифицировать их. Итак, чтобы идентифицировать изображение при обучении с учителем, специалисты по данным предоставят входные данные, а также выходные данные для этого, что означает, что они будут обучать модель по форме, размеру, цвету каждого животного. После завершения обучения модель будет протестирована с предоставлением нового набора животных. Модель идентифицирует животное и прогнозирует результат, используя подходящий алгоритм.

Неконтролируемое обучение - это еще один метод машинного обучения, в котором шаблоны выводятся из немаркированных входных данных. Цель обучения без учителя - найти структуру и закономерности из входных данных. Обучение без учителя не требует присмотра. Вместо этого он самостоятельно находит закономерности в данных.

С обучением без учителя связаны два типа проблем : кластеризация и ассоциация.

Пример: чтобы понять процесс обучения без учителя, мы воспользуемся примером, приведенным выше. Таким образом, в отличие от обучения с учителем, здесь мы не будем осуществлять наблюдение за моделью. Вместо этого просто предоставит входной набор данных модели и позволит модели найти закономерности из данных. С помощью подходящего алгоритма модель обучится и разделит животных на разные группы в соответствии с наиболее схожими характеристиками между ними.

2. Что такое линейная регрессия?
Ответ : Линейная регрессия помогает понять линейную связь между зависимыми и независимыми переменными. Линейная регрессия - это алгоритм обучения с учителем, который помогает установить линейную связь между двумя переменными. Один из них является предиктором или независимой переменной, а другой - ответом или зависимой переменной. Линейная регрессия направлена на понимание того, как зависимая переменная изменяется по отношению к независимой переменной. Если есть только одна независимая переменная, то это называется простой линейной регрессией, а если существует более одной независимой переменной, то это называется множественной линейной регрессией.

3. Что лучше всего подходит для текстовой аналитики между Python и R?
Ответ : Python был бы лучшим вариантом для библиотеки Pandas, которая предоставляет простые в использовании структуры данных и высокопроизводительные инструменты анализа данных. R больше подходит для машинного обучения, чем просто для анализа текста. Python работает быстрее для всех типов текстовой аналитики.

4. Объясните алгоритм машинного обучения SVM.
Ответ : SVM означает машину опорных векторов, это алгоритм машинного обучения с учителем, который можно использовать как для регрессии, так и для классификации. SVM пытается построить его в n-мерном пространстве, где значение каждой функции является значением определенной координаты. SVM использует гиперплоскости для разделения разных классов на основе предоставленной функции ядра.

5. Что такое выбросы и как с ними обращаться?
Ответ : Значения выбросов или просто выбросы - это точки данных в статистике, которые не принадлежат определенной совокупности. Значение выброса - это ненормальное наблюдение, которое очень сильно отличается от других значений, принадлежащих набору.

Идентификация выбросов значений может быть произведена с помощью одномерного или другого метода графического анализа. Немногочисленные значения выбросов можно оценить индивидуально, но для оценки большого набора значений выбросов требуется их замена 99-м или 1-м процентилем.

Есть два популярных способа обработки выбросов:
  • Чтобы изменить значение так, чтобы его можно было привести в диапазон
  • Чтобы просто удалить значение

6. Различные этапы аналитического проекта.
Ответ: Ниже приведены многочисленные этапы аналитического проекта:
  • Понимание бизнес-проблемы
  • Изучение данных и ознакомление с ними
  • Подготовка данных к моделированию посредством обнаружения резко отклоняющихся значений, преобразования переменных, обработки пропущенных значений и т. Д.
  • Запуск модели и анализ результата для внесения соответствующих изменений или модификаций в модель (итеративный шаг, который повторяется до достижения наилучшего возможного результата)
  • Проверка модели с использованием нового набора данных
  • Внедрение модели и отслеживание результата для анализа производительности одного и того же

7. Объясните глубокое обучение

Ответ: Deep Learning - это метод нейронной сети, основанный на сверточных нейронных сетях (CNN). Глубокое обучение имеет широкий спектр применений, от фильтрации социальных сетей до анализа медицинских изображений и распознавания речи. Caffe, Chainer, Keras, Microsoft Cognitive Toolkit, Pytorch и TensorFlow - одни из самых популярных фреймворков глубокого обучения на сегодняшний день.

Хотя глубокое обучение существует уже давно, только недавно оно получило всемирное признание:
  • Увеличение объема генерации данных из различных источников.
  • Рост аппаратных ресурсов, необходимых для запуска моделей глубокого обучения.

8. Какие навыки требуются от специалиста по обработке данных Python?
Ответ:
  • Экспериментируйте с Pandas Dataframes, Scikit-learn и N-мерными массивами NumPy.
  • Навыки для применения поэлементных векторных и матричных операций с массивами NumPy.
  • Способен понимать встроенные типы данных, включая кортежи, наборы, словари и другие.
  • Он оснащен дистрибутивом Anaconda и менеджером пакетов Conda.
  • Возможность писать эффективные списки, небольшие, чистые функции и избегать традиционных циклов for.
  • Знание скрипта Python и оптимизация узких мест

9. Есть ли различия между глубоким обучением и машинным обучением?
Ответ: Да, между глубоким обучением и машинным обучением есть различия. Они указаны ниже:

Глубокое обучение
  • Это дает компьютерам возможность учиться без явного программирования. Это дает компьютерам от ограниченных до неограниченных возможностей, при этом ничто серьезное не может быть сделано без программирования, а многие вещи можно сделать без предварительного программирования. Он включает в себя контролируемые, неконтролируемые и подкрепляющие процессы машинного обучения.

Машинное обучение
  • Это подкомпонент машинного обучения, связанный с алгоритмами, основанными на структуре и функциях человеческого мозга, которые называются искусственными нейронными сетями. Он включает в себя глубокое обучение как один из компонентов.

10. Почему Tensorflow считается приоритетным в изучении Data Science?
Ответ: Tensorflow считается высокоприоритетным в изучении Data Science, поскольку он обеспечивает поддержку использования компьютерных языков, таких как C ++ и Python. Таким образом, он выполняет различные процессы в области науки о данных для обеспечения более быстрой компиляции и завершения в установленные сроки и быстрее, чем обычные библиотеки Keras и Torch. Tensorflow поддерживает вычислительные устройства, включая CPU и GPU, для более быстрого ввода, редактирования и анализа данных.
HR Блог для IT рекрутера в Телеграм
Хочешь всегда получать новые статьи, бесплатные материалы и полезные HR лайфхаки! Подписывайся на нас в Telegram! С нами подбор ит персонала становится проще ;)
Хотите найти талантливого сотрудника?
Оставьте заявку и получите в подарок список вопросов для сбора рекомендаций на кандидата