Таким образом, есть много возможностей для тех, кто заинтересован в карьере Data Science.
Вопросы для интервью по науке о данных для начинающих
1. В чем разница между контролируемым и неконтролируемым обучением?
Обучение с учителем — это тип машинного обучения, при котором функция выводится из помеченных обучающих данных. Обучающие данные содержат набор обучающих примеров. С другой стороны, неконтролируемое обучение — это когда выводы делаются на основе наборов данных, содержащих входные данные без помеченных ответов.
2. Что такое систематическая ошибка выбора и какие существуют ее типы?
Систематическая ошибка отбора обычно связана с исследованиями, в которых нет случайного выбора участников. Это тип ошибки, который возникает, когда исследователь решает, кого он будет изучать. В некоторых случаях систематическая ошибка отбора также называется эффектом отбора.
Другими словами, систематическая ошибка отбора — это искажение статистического анализа, возникающее в результате метода сбора выборки. Если систематическая ошибка отбора не принимается во внимание, некоторые выводы, сделанные в ходе исследования, могут оказаться неточными.
Ниже приведены различные типы предвзятости выбора:
- Смещение выборки: систематическая ошибка, возникающая из-за неслучайной выборки населения, из-за которой некоторые члены одного и того же населения с меньшей вероятностью будут включены, чем другие, приводит к смещенной выборке.
- Временной интервал: испытание может закончиться при экстремальном значении, обычно по этическим причинам, но экстремальное значение, скорее всего, будет достигнуто переменной с наибольшей дисперсией, даже если все переменные имеют одинаковое среднее значение.
- Данные: результаты, когда определенные подмножества данных выбираются для поддержки вывода или произвольного отклонения неверных данных.
- Истощение: вызвано истощением, т. е. потерей участников, обесцениванием испытуемых или тестами, которые не были завершены.
3. Какова цель A/B-тестирования?
A/B-тестирование — это проверка статистической гипотезы, предназначенная для рандомизированного эксперимента с двумя переменными, A и B. Цель A/B-тестирования — максимизировать вероятность интересующего результата путем выявления любых изменений на веб-странице. Высоконадежный метод определения лучших онлайн-маркетинговых и рекламных стратегий для бизнеса. A/B-тестирование можно использовать для тестирования всего, начиная от электронных писем с продажами и заканчивая поисковыми объявлениями и копиями веб-сайтов.
4. Что из Python и R вы бы выбрали для текстовой аналитики и почему?
Для текстовой аналитики Python одержит верх над R по следующим причинам:
- Библиотека Pandas на Python предлагает простые в использовании структуры данных, а также высокопроизводительные инструменты анализа данных.
- Python имеет более высокую производительность для всех типов текстовой аналитики.
5. Какова цель очистки данных при анализе данных?
Очистка данных может быть сложной задачей из-за того, что по мере роста количества источников данных время, необходимое для очистки данных, увеличивается с экспоненциальной скоростью. Это связано с огромным объемом данных, генерируемых дополнительными источниками. Очистка данных может занимать до 80% всего времени, необходимого для выполнения задачи анализа данных. Тем не менее, есть несколько причин для использования очистки данных в анализе данных. Двумя наиболее важными из них являются:
- Очистка данных из разных источников помогает преобразовать данные в удобный для работы формат.
- Очистка данных повышает точность модели машинного обучения
6. Можете ли вы сравнить проверочный набор с тестовым?
Проверочный набор является частью обучающего набора, используемого для выбора параметров. Это помогает избежать переобучения разрабатываемой модели машинного обучения. Набор тестов предназначен для оценки или тестирования производительности обученной модели машинного обучения.
7. Что такое линейная регрессия и логистическая регрессия?
Линейная регрессия — это форма статистического метода, в которой оценка некоторой переменной Y предсказывается на основе оценки второй переменной X, называемой переменной-предиктором. Переменная Y известна как переменная критерия.
Логистическая регрессия, также известная как логит-модель, представляет собой статистический метод прогнозирования бинарного результата на основе линейной комбинации переменных-предикторов.
8. Объясните рекомендательные системы и сформулируйте заявку.
Рекомендательные системы — это подкласс систем фильтрации информации, предназначенных для прогнозирования предпочтений или оценок, присвоенных пользователем тому или иному продукту.
9. Какие этапы включает в себя аналитический проект?
- Понимание проблемы бизнеса
- Изучение данных и их понимание
- Подготовка данных для моделирования посредством обнаружения выбросов, преобразования переменных, обработки пропущенных значений и т.д.
- Запуск модели и анализ результатов для внесения соответствующих изменений или модификаций в модель (итеративный шаг, который повторяется до тех пор, пока не будет достигнут наилучший возможный результат)
- Проверка модели с использованием нового набора данных
- Внедрение модели и отслеживание результата для анализа производительности одного и того же
10. Что такое глубокое обучение?
Глубокое обучение — это парадигма машинного обучения, которая в определенной степени напоминает работу человеческого мозга. Это метод нейронной сети, основанный на сверточных нейронных сетях (CNN). Глубокое обучение имеет широкий спектр применений, начиная от фильтрации социальных сетей и заканчивая анализом медицинских изображений и распознаванием речи. Хотя глубокое обучение существует уже давно, мировое признание оно получило лишь недавно. Это в основном связано с:
- Увеличение объема генерации данных
- Рост аппаратных ресурсов, необходимых для запуска моделей глубокого обучения.
- Caffe, Chainer, Keras, Microsoft Cognitive Toolkit, Pytorch и TensorFlow — одни из самых популярных фреймворков глубокого обучения.
11. Что такое градиентный спуск?
Градиентный спуск — это математическая функция, которая спускается на дно долины. Это алгоритм минимизации, предназначенный для минимизации заданной функции активации. Степень изменения выходных данных функции по отношению к изменениям, внесенным во входные данные, называется градиентом. Он измеряет изменение всех весов по отношению к изменению ошибки. Градиент также можно понимать как наклон функции.
12. Какие навыки важны, чтобы стать Data Scientist?
Навыки, необходимые для того, чтобы стать сертифицированным Data Scientist, включают в себя:
- Знание встроенных типов данных, включая списки, кортежи, наборы и т.п.
- Опыт работы с N-мерными массивами NumPy.
- Возможность применять Pandas Dataframes.
- Высокая производительность удержания в поэлементных векторах.
- Знание матричных операций с массивами NumPy.
13. Какие навыки требуются специалисту по данным в отношении анализа данных Python?
Навыки, необходимые специалисту по данным, которые помогут использовать Python для целей анализа данных:
- Понимание фреймов данных Pandas, Scikit-learn и N-мерных массивов NumPy.
- Знание того, как применять поэлементные векторные и матричные операции к массивам NumPy.
- Понимание встроенных типов данных, включая кортежи, наборы, словари и т. д.
- Знание дистрибутива Anaconda и менеджера пакетов Conda
- Написание эффективных списков, небольших, чистых функций и отказ от традиционных циклов for
- Знание скриптов Python и оптимизация узких мест
14. Почему TensorFlow считается важным в науке о данных?
TensorFlow считается приоритетом при изучении науки о данных, поскольку он обеспечивает поддержку таких языков, как C++ и Python. Таким образом, некоторые процессы обработки данных выигрывают от более быстрой компиляции и завершения по сравнению с библиотеками Keras и Torch. TensorFlow также поддерживает ЦП и ГП для более быстрого ввода, редактирования и анализа данных.
15. Что такое отсев?
Dropout — это плата в науке о данных, которая используется для случайного исключения скрытых и видимых блоков сети. Они предотвращают переоснащение данных, отбрасывая до 20% узлов, чтобы можно было организовать необходимое пространство для итераций, необходимых для конвергенции сети.
16. Каковы различные библиотеки машинного обучения и их преимущества?
Различные библиотеки машинного обучения и их преимущества заключаются в следующем.
- Numpy: используется для научных вычислений
- Статистические модели: используются для анализа временных рядов.
- Pandas: используется для анализа трубчатых данных.
- Scikit узнает: используется для моделирования и предварительной обработки данных.
- TensorFlow: используется для глубокого обучения
- Регулярные выражения: используются для обработки текста.
- Pytorch: используется для глубокого обучения
- NLTK: используется для обработки текста.
17. Назовите некоторые фреймворки глубокого обучения.
Некоторые фреймворки глубокого обучения:
- Caffe
- Keras
- TensorFlow
- Pytorch
- Chainer
- Microsoft Cognitive Toolkit
18. Что такое эпоха?
Эпоха в науке о данных представляет собой одну итерацию по всему набору данных. Он включает в себя все, что применяется к модели обучения.
19. Что такое Batch?
Batch — это серия разбитых коллекций набора данных, которые помогают передавать информацию в систему. Используется, когда разработчик не может сразу передать в нейросеть весь набор данных.
20. Что такое итерация? Укажите пример.
Итерация — это классификация данных по разным группам, применяемая в пределах эпохи. Например, если имеется 50 000 изображений и размер пакета равен 100, Epoch выполнит около 500 итераций.
21. Что такое функция затрат?
Функции стоимости — это инструмент для оценки того, насколько хороша производительность модели. Он учитывает ошибки и потери, допущенные в выходном слое в процессе обратного распространения. В таком случае ошибки перемещаются в нейронной сети назад, и применяются различные другие обучающие функции.
22. Что такое гиперпараметры?
Гиперпараметры — это своего рода параметр, значение которого устанавливается перед процессом обучения, чтобы можно было определить требования к обучению сети и улучшить структуру сети. Этот процесс включает в себя, среди прочего, распознавание скрытых единиц, скорости обучения и эпох.
23. Объясните, что такое переоснащение и недообучение.
Чтобы делать надежные прогнозы по необученным данным в машинном обучении и статистике, необходимо подогнать модель к набору обучающих данных. Переоснащение и недооснащение — две наиболее распространенные ошибки моделирования, возникающие при этом. Статистическая модель, страдающая от переобучения, связана с некоторой случайной ошибкой или шумом вместо основной зависимости. Когда статистическая модель или алгоритм машинного обучения чрезмерно сложны, это может привести к переоснащению. Примером сложной модели является модель, имеющая слишком много параметров по сравнению с общим количеством наблюдений.
Когда происходит недостаточное соответствие, статистическая модель или алгоритм машинного обучения не могут уловить основную тенденцию данных. Недообучение возникает при попытке подогнать линейную модель к нелинейным данным.
Хотя как переобучение, так и недообучение дают плохую прогностическую эффективность, каждый из них делает это по-своему. В то время как модель с переоснащением чрезмерно реагирует на незначительные колебания обучающих данных, модель с недообучением недостаточно реагирует на еще большие колебания.
24. Что такое нормализация партии?
Пакетная нормализация — это метод, с помощью которого можно попытаться улучшить производительность и стабильность нейронной сети. Это можно сделать, нормализовав входные данные в каждом слое так, чтобы средняя выходная активация оставалась равной 0, а стандартное отклонение равнялось 1.
25. Что вы подразумеваете под кластерной выборкой и систематической выборкой?
Изучение целевой популяции, разбросанной по обширной территории, может оказаться затруднительным. Применение простой случайной выборки становится неэффективным, используется метод кластерной выборки. Кластерная выборка — это вероятностная выборка, в которой каждая из единиц выборки представляет собой совокупность или кластер элементов. Следуя методу систематической выборки, элементы выбираются из упорядоченной основы выборки. Список продвигается по кругу. Это делается таким образом, чтобы, как только был достигнут конец списка, то же самое продолжалось с начала или сверху снова.
26. Что такое собственные векторы и собственные значения?
Собственные векторы помогают понять линейные преобразования. Обычно они рассчитываются для корреляционной или ковариационной матрицы при анализе данных. Другими словами, собственные векторы — это те направления, вдоль которых действует некоторое конкретное линейное преобразование, сжимая, переворачивая или растягивая. Собственные значения можно понимать либо как силы преобразования в направлении собственных векторов, либо как факторы, за счет которых происходят сжатия.
27. Что такое выбросы и как вы к ним относитесь?
Выбросы или просто выбросы — это точки данных в статистике, которые не принадлежат определенной совокупности. Значение выброса — это аномальное наблюдение, которое очень сильно отличается от других значений, принадлежащих набору. Не все экстремальные значения являются выбросами. Идентификация значений выбросов может быть выполнена с использованием одномерного анализа или какого-либо другого метода графического анализа. Несколько значений выбросов можно оценить по отдельности, но для оценки большого набора значений выбросов требуется замена их значениями 99-го или 1-го процентиля. Существует два популярных способа обработки выбросов:
- Чтобы изменить значение, чтобы его можно было привести в диапазон
- Чтобы просто удалить значение
28. Как вы определяете количество кластеров в алгоритме кластеризации?
Основная цель кластеризации состоит в том, чтобы сгруппировать похожие идентичности таким образом, чтобы, хотя объекты в группе были похожи друг на друга, группы оставались отличными друг от друга. Как правило, внутренняя сумма квадратов используется для объяснения однородности внутри кластера. Для определения количества кластеров в алгоритме кластеризации WSS строится для диапазона, относящегося к количеству кластеров.
29. Как работает обратное распространение?
Обратное распространение относится к алгоритму обучения, используемому для многослойных нейронных сетей. Следуя алгоритму обратного распространения, ошибка перемещается с конца сети на все веса внутри сети. Это позволяет эффективно вычислять градиент. Обратное распространение работает следующим образом:
- Прямое распространение обучающих данных
- Выход и цель используются для вычисления производных
- Обратное распространение для вычисления производной ошибки относительно активации выхода
- Использование ранее рассчитанных производных для генерации выходных данных
- Обновление весов
Ниже приведены различные варианты обратного распространения:
- Пакетный градиентный спуск: градиент рассчитывается для всего набора данных, и обновление выполняется на каждой итерации.
- Мини-пакетный градиентный спуск: мини-пакетные образцы используются для расчета градиента и обновления параметров (вариант подхода стохастического градиентного спуска).
- Стохастический градиентный спуск: для расчета градиента и обновления параметров используется только один обучающий пример.
30. Что вы знаете об автоэнкодерах?
Автоэнкодеры — это упрощенные обучающие сети, используемые для преобразования входных данных в выходные данные с минимально возможной ошибкой. Это означает, что результаты вывода очень близки к входам. Пара слоев добавляется между входом и выходом, причем размер каждого слоя меньше, чем размер, относящийся к входному слою. Автоэнкодер получает немаркированные входные данные, которые закодированы для восстановления выходных данных.
31. Пожалуйста, объясните концепцию машины Больцмана.
Машина Больцмана имеет простой алгоритм обучения, который позволяет ей обнаруживать интересные особенности, представляющие сложные закономерности, присутствующие в обучающих данных. Он в основном используется для оптимизации количества и веса для некоторой заданной задачи. Простой алгоритм обучения, применяемый в машине Больцмана, работает очень медленно в сетях с множеством уровней детекторов признаков.
32. Что такое ГАН?
Генеративно-состязательная сеть берет входные данные из вектора шума и отправляет их в Генератор, а затем в Дискриминатор, чтобы идентифицировать и различать уникальные и поддельные входные данные.
33. Каковы компоненты GAN?
Есть два жизненно важных компонента GAN. Это:
- Генератор: Генератор действует как Фальсификатор, который создает поддельные копии.
- Дискриминатор: Дискриминатор действует как распознаватель поддельных и уникальных (настоящих) копий.
34. Что такое вычислительный график?
Вычислительный граф — это графическое представление, основанное на TensorFlow. Он имеет широкую сеть различных типов узлов, где каждый узел представляет определенную математическую операцию. Ребра в этих узлах называются тензорами. Вот почему вычислительный граф называется TensorFlow входных данных. Вычислительный граф характеризуется потоками данных в виде графа; поэтому его также называют DataFlow Graph.
35. Что такое тензоры?
Тензоры — это математические объекты, которые представляют собой набор входных данных более высоких измерений в виде алфавитов, цифр и рангов, подаваемых в качестве входных данных для нейронной сети.
36. Что такое функция активации?
Функция активации помогает ввести нелинейность в нейронную сеть. Это сделано, чтобы помочь процессу обучения, когда речь идет о сложных функциях. Без функции активации нейронная сеть не сможет выполнять только линейную функцию и применять линейные комбинации. Таким образом, функция активации предлагает сложные функции и комбинации с применением искусственных нейронов, которые помогают выдавать выходные данные на основе входных данных.
37. Что такое исчезающие градиенты?
Исчезающий градиент — это состояние, когда наклон слишком мал во время обучения рекуррентных нейронных сетей. Результатом исчезающих градиентов являются плохие результаты, низкая точность и длительный процесс обучения.
38. Что такое взрывные градиенты?
Взрывной градиент — это состояние, когда ошибки растут экспоненциально или с высокой скоростью во время обучения рекуррентных нейронных сетей. Этот градиент ошибки накапливается и приводит к применению больших обновлений в нейронной сети, вызывает переполнение и приводит к значениям NaN.
39. Что такое полная форма LSTM? Какова его функция?
LSTM означает долговременную кратковременную память. Это рекуррентная нейронная сеть, способная изучать долгосрочные зависимости и вызывать информацию в течение более длительного периода времени в рамках своего поведения по умолчанию.
40. Каковы различные шаги в LSTM?
Различные шаги в LSTM включают следующее.
Шаг 1: Сеть помогает решить, что нужно запомнить, а что забыть
Шаг 2: Выбор сделан для значений состояния ячейки, которые могут быть обновлены
Шаг 3: Сеть решает, что можно сделать как часть текущего выпуска.
41. Что такое Pollingin CNN?
Опрос — это метод, который используется для уменьшения пространственных размеров CNN. Это помогает уменьшать количество операций для уменьшения размерности и создания объединенных карт объектов. Объединение в CNN помогает сдвинуть матрицу фильтра по входной матрице.
42. Что такое РНН?
Рекуррентные нейронные сети — это искусственная нейронная сеть, представляющая собой последовательность данных, включая фондовые рынки, последовательность данных, включая фондовые рынки, временные ряды и другие. Основная идея приложения RNN состоит в том, чтобы понять основы сетей прямой связи.
43. Какие существуют слои на CNN?
На CNN есть четыре разных слоя. Это:
- Сверточный слой: в этом слое создается несколько небольших окон изображений для просмотра данных.
- Слой ReLU: этот слой помогает внести нелинейность в сеть и преобразует отрицательные пиксели в ноль, так что на выходе получается исправленная карта объектов.
- Объединенный слой: этот слой уменьшает размерность карты объектов.
- Полностью подключенный слой: этот слой распознает и классифицирует объекты на изображении.
44. Что такое искусственная нейронная сеть?
Искусственные нейронные сети — это особый набор алгоритмов, вдохновленных биологической нейронной сетью, предназначенных для адаптации изменений на входе для достижения наилучшего результата. Это помогает получать наилучшие результаты без необходимости переделывать методы вывода.
45. Что такое ансамблевое обучение?
Ансамблевое обучение — это процесс объединения разнообразных групп учащихся, являющихся отдельными моделями. Это помогает повысить стабильность и прогностическую силу модели.
46. Какие существуют виды ансамблевого обучения?
Различные виды ансамблевого обучения:
- Бэггинг: он реализует простых учеников на одной небольшой совокупности и использует среднее значение для целей оценки.
- Повышение: он регулирует вес наблюдения и, таким образом, классифицирует популяцию по разным наборам, прежде чем будет сделан прогноз результата.
Этот список ни в коем случае не является исчерпывающим. Мы сделали гайды-помощники для проведения технических собеседований в помощь IT рекрутеру. Более 100 отобранных вопросов под каждое направление, которые можно
скачать по ссылке у нас в телеграмм.