HR-блог про IT рекрутинг от ИТ Кадрового агентства

Аналитик данных: чем занимается и почему он нужен в команде

Работа в IT
Что такое наука о данных? Этот вопрос в последние годы постоянно набирает популярность, например, в поисковой системе Google Trends. Ничего удивительного в этом нет. Каждый из нас ежедневно генерирует огромные объемы данных, поэтому работать с ними — нечто естественное. Поэтому стоит знать, что такое определение Data Science и какую роль эта наука играет в современном мире.

ЧТО ТАКОЕ НАУКА О ДАННЫХ?

Данные считаются нефтью 21 века и уже много лет находятся в авангарде тенденций в ИТ-индустрии . Это связано с тем, что пользователи Интернета ежедневно генерируют около 2,5 трлн байт данных. С каждым лайком на Facebook, загрузкой фотографии в Instagram или совершением покупки в интернет-магазине мы генерируем новую информацию, которая при правильной обработке дает определенные закономерности.
Вышеупомянутый огромный масштаб данных имеет свой термин — Big Data. Но что это означает? Определение Big Data гласит, что это большие наборы данных из множества различных источников, для обработки которых требуются новые технологии.
Наука о данных — по определению — это область исследований , которая сочетает в себе специальные знания, навыки программирования и знания математики и статистики. Цель состоит в том, чтобы извлечь важные выводы и закономерности из большого количества данных, используя ряд исследовательских методов, алгоритмов и процессов.

НАЧАЛО НАУКИ О ДАННЫХ

Наука о данных как отдельная научная дисциплина выделилась относительно недавно. Он был создан из необходимости создания новых профессий, связанных с работой с огромными массивами данных, которые с каждым днем ​​становятся все более важными — как для мира науки, бизнеса, так и просто нашей повседневной жизни.
Термин «наука о данных» был придуман в 1974 году, когда Питер Наур — датский пионер программирования — предложил его в качестве альтернативного названия информатике. Однако в 2001 году американский ученый-компьютерщик Уильям С. Кливленд в тексте «Наука о данных: план действий по расширению технических областей статистики» поставил перед собой цель ввести науку о данных как отдельную дисциплину, связанную с аналитикой.

ПОЧЕМУ НАУКА О ДАННЫХ ТАК ВАЖНА?

Первоначально данные были основным объектом интереса научных организаций, которые использовали их для различных видов исследований и создания новых исследовательских теорий. Со временем данные стали настоящей золотой жилой и ключевым элементом, представляющим интерес для компаний.
Почему?
Подсчитано, что 90% мировых данных было создано за последние два года . Пользователи Facebook — для простого примера — загружают 10 миллионов фотографий в час. Это уже можно рассматривать как огромный набор данных. Если мы оставим их нетронутыми, они не принесут ощутимой пользы. Они будут просто загружены фотографии. Однако при правильном их анализе и интерпретации результатов мы увидим интересные закономерности, часто решающие для определения стратегии развития многих предприятий. Именно здесь вступает наука о данных, выявляющая тенденции и генерирующая ценные идеи.
Данные, полученные благодаря клиентам, процессам и пользователям, помогают организациям, среди прочего:
  • повысить эффективность,
  • снизить бизнес-риск,
  • улучшить программы маркетинга и продаж.
Какие товары чаще всего покупают покупатели? Какие маршруты авиакомпаний наиболее популярны? Какие фильмы на Netflix самые популярные? Ответы на эти вопросы вы найдете среди должным образом проанализированных данных.

КТО ЕСТЬ КТО В МИРЕ DATA SCIENCE?

Наука о данных — очень широкое понятие. Поэтому неудивительно, что с его использованием (и развитием) появляется ряд профессий, связанных с этой областью. К сожалению, их имена часто используются взаимозаменяемо, что является ошибкой. Между ними есть существенные различия, и о них действительно стоит знать. Особенно, если вас интересует данный путь развития.
  • (Data Analyst) — обрабатывает и экспортирует существующую информацию, содержащуюся в данных, чтобы иметь возможность извлекать соответствующие выводы;
  • (Data Scientist) — отвечает за все этапы процесса Data Science, занимается планированием, реализацией и контролем всего проекта. Кроме того, он занимается комплексным анализом больших наборов данных (Big Data) и способен видеть широкий контекст своего анализа;
  • (Data Engineering) — занимается проектированием, разработкой и обслуживанием систем обработки и хранения данных;
  • (Machine Learning Engineering) — отвечает за создание алгоритмов, которые на основе имеющихся данных позволяют предсказывать результаты для будущих данных с определенной вероятностью.

ПРОЦЕСС DATA SCIENCE — В ЧЕМ ЗАКЛЮЧАЕТСЯ РАБОТА АНАЛИТИКА ДАННЫХ?

Процесс, которому подвергаются данные, называется жизненным циклом науки о данных. В зависимости от выбранной модели этот цикл состоит из 6 или 7 этапов. Это тоже обычно итеративный процесс (лат. iteratio — повторение), а не линейный.
Процесс Data Science включает в себя, среди прочего: следующие шаги:
  • определение проблемы,
  • сбор данных,
  • очистка и обработка данных,
  • интеллектуальный анализ данных и определение новых переменных,
  • глубокий анализ данных,
  • презентации результатов анализов.

ПРИМЕНЕНИЕ НАУКИ О ДАННЫХ В РАЗЛИЧНЫХ СЕКТОРАХ

Науку о данных можно использовать для управления бизнес-процессами. Независимо от отрасли и размера, организации, которые хотят оставаться конкурентоспособными, должны эффективно расти на основе науки о данных, иначе они рискуют отстать.
Вот несколько примеров использования Data Science в различных отраслях:
  • Электронная коммерция — интернет-магазины могут анализировать поведение клиентов и модели покупок, чтобы управлять количеством продуктов, которые у них есть. Наука о данных также позволяет создавать персонализированные рекомендации и помогает нацеливать рекламу и рекламные акции.
  • Производство . Наука о данных играет особую роль в оптимизации управления цепочками поставок и распределения. Углубленный анализ данных также позволяет обнаруживать потенциальные сбои на производственной линии до того, как они произойдут.
  • Финансы и страхование — банки и страховые компании анализируют данные о своих клиентах, чтобы определить возможности для дополнительных продаж. Финансовые компании используют науку о данных, например. определить, платежеспособен ли соискатель кредита.
  • Доставка и логистика . Курьерские компании и поставщики логистических услуг используют науку о данных для оптимизации маршрутов и графиков доставки, а также для выбора наилучших транспортных средств для доставки.

Как выглядит рабочий день аналитика?

Как и в любой профессии, работу аналитика можно разделить на определенные сегменты. Интересно, что личное выполнение сложных математических расчетов не является его основным занятием.

ИТ-команда

В первой части я рассказываю о встречах с командой. Поскольку, как и любая уважающая себя ИТ-команда, мы Agile и работаем в соответствии с методологией SCRUM, существуют определенные повторяющиеся встречи, такие как ежедневный стендап, обзор спринта, ретроспектива или планирование спринта. Это интересно тем, что, хотя и имеет свои недостатки, это вполне стройная система, позволяющая управлять командной работой.

BI-отчеты

Во второй части я рассказываю о создании отчетов и анализе данных. Если вам интересно, что аналитик данных делает чаще всего, это будет этот сегмент. Работая в BI (то есть в Business Intelligence), он создает более сложные отчеты, чем отчеты о продажах в Excel. В результате мне часто приходится думать о том, на какие бизнес-вопросы должен ответить отчет.

Деловые вопросы

Чтобы задать хорошие деловые вопросы, вам нужен предварительный анализ данных. Часто, когда мы ищем аналитика данных, мы пропускаем вопросы. И это достаточно важная тема. Мы хотим знать, что можно спрашивать, что стоит спрашивать, а что подозрительно. Примеры «приемов», которые он использует, можно увидеть, например, в видеороликах, посвященных:
  • ETL
  • Очистка данных

Акционер

Наконец, я поднимаю тему разговора с заинтересованной стороной. Стейкхолдер — это немного начальник, потому что он часто берет у вас работу или поручает ее вам, но с другой стороны, он не начальник, потому что он не принимает решения о вашем приеме на работу или увольнении. Разговор с ним напоминает сочетание продаж, переговоров и выполнения заказа, ведь часто приходится искать компромисс между тем, что принесет пользу компании, и тем, что разумно и осуществимо в данный момент времени.

➡️ Резюме: Чем занимается аналитик, т.е. кто такой аналитик данных

Специалист по данным — это человек, который анализирует информацию с помощью инструментов анализа данных. Значимые результаты, которые они получают из необработанных данных, помогают работодателям или клиентам принимать важные решения, определяя различные факты и тенденции. Типичные обязанности включают в себя: использование технологий бизнес-аналитики и анализа данных для извлечения необходимых данных, координацию работы с другими ИТ-группами/членами групп и общение с заинтересованными сторонами.

Какими компетенциями и навыками должен обладать Data Scientist?

Разработка программного обеспечения

Прежде всего, Data Scientist должен уметь программировать. В этом его отличие от стандартного аналитика данных — он должен программировать свои решения так, чтобы они работали автоматически. Этот навык полезен, например, при загрузке данных из Интернета либо через специализированные API (стоит упомянуть, что столица Варшава сделала данные об общественном транспорте доступными таким образом, что, конечно, не единственный пример), либо через парсинг обычных веб-сайтов (веб-скрапинг). Конечно, данные можно получить и другими способами — из файлов (самые популярные форматы здесь — XLS, CSV, JSON, XML), а также из баз данных. Еще одно приложение — автоматическая очистка данных: написание кода, который удалит лишние пробелы, запятые, а также сможет сравнить две записи из двух разных баз и указать те которые описывают один и тот же объект (например, клиента или продукт). Здесь тоже нельзя забывать о целой ветке больших данных. При таком большом количестве данных, которые в настоящее время могут собирать компании (каждый клик на веб-сайте, каждая покупка в магазине), каждое решение, даже в области машинного обучения, должно разрабатываться в контексте планирования производительности и производства. Это невозможно сделать в отрыве от программирования, а только на листе бумаги. Языки, которые лидируют в области науки о данных, он должен быть разработан в контексте планирования производительности и производственного развертывания. Это невозможно сделать в отрыве от программирования, а только на листе бумаги. Языки, которые лидируют в области науки о данных, он должен быть разработан в контексте планирования производительности и производственного развертывания. Это невозможно сделать в отрыве от программирования, а только на листе бумаги. Языки, которые лидируют в области науки о данных,R и Python (вместе с библиотеками Numpy и Pandas). Из-за частой работы с базами данных язык запросов SQL также является важной компетенцией Data Scientist.
Если мы уже занимаемся программированием, нельзя забывать о навыках разработки программного обеспечения или алгоритмов и структур данных.. Data Scientist часто является частью большой команды программистов, которые создают полноценный продукт, например, ИТ-систему, где статистическая модель является лишь ее частью (например, рекомендательная система в интернет-магазине). Поэтому код, предоставляемый Data Scientist, должен соответствовать всем требованиям, которые мы предъявляем к профессиональной разработке программного обеспечения: он должен быть покрыт юнит-тестами, написан прозрачным образом, в соответствии с парадигмой объектно-ориентированного программирования (абстракция, инкапсуляция, полиморфизм, наследование), разделенные на пакеты или имена пробелов. Все это для того, чтобы упростить обслуживание и разработку этого кода для третьих лиц. Кроме того, чтобы код был эффективным, такие структуры данных, как списки, векторы, очереди, стеки или деревья, не должны скрывать от Data Scientist больших секретов.

Статистика и машинное обучение

Еще один навык, без которого сложно представить человека на позиции Data Scientist, — это статистика. Такие термины, как нулевая гипотеза, p-значение или доверительные интервалы, не должны храниться в секрете от «специалиста по данным». Именно благодаря этой области математики мы можем сказать, существенно ли отличаются результаты двух разных подходов к проблеме (например, двух методов машинного обучения), и если да, то какие из них дают лучшие результаты и насколько. Другим примером может быть проверка того, действительно ли мы в результате рекламной кампании добились лучших результатов продаж или небольшие различия являются просто совпадением и математических оснований для подтверждения эффективности рекламы нет. Другой частью статистики, которая также полезна на практике, является исследовательский анализ данных. Речь идет об умении рассчитать минимум максимум, среднее, медиана, мода, стандартное отклонение, дисперсия, коэффициент асимметрии, а также анализ и выводы из полученных таким образом значений. Примером здесь может быть расчет этой статистики для возраста наших клиентов или размера их заказов (рассчитывается в купленных продуктах или их стоимости).
Также знание машинного обученияимеет важное значение в работе Data Scientist. Именно эта компетентность делает все волшебство возможным. Благодаря алгоритмам бинарной классификации, например, случайному лесу или машине опорных векторов, мы можем обнаруживать подозрительные транзакции по кредитным картам. Конечно, чтобы это было возможно, мы должны были собрать множество примеров транзакций, в которых у нас есть как множество признаков, описывающих их, так и информация о том, была ли такая транзакция подозрительной или нет. То же самое относится и к выявлению редких заболеваний. Другим примером являются рекомендательные системы, которые позволяют онлайн-покупателю предлагать продукты, которые он готов купить, даже если он не ищет их активно. В этом случае обычно определяется мера сходства между продуктами, чтобы показать родственные. Другой стратегией может быть поиск похожих пользователей и демонстрация продуктов, которые они приобрели. Такой подход уже требует сбора определенного количества исторических данных. Наиболее захватывающей областью машинного обучения, по-видимому, является анализ изображений, который включает хорошо известную проблему чтения субтитров с изображений компьютером. В последнее время в авангарде этого находятся нейронные сети, которые нашли применение и в других областях. Это, например, обработка естественного языка, которая касается, например. анализ того, как люди говорят о данном продукте в Интернете, или обнаружение плагиата, состоящего в перефразировании предложений. Наиболее захватывающей областью машинного обучения, по-видимому, является анализ изображений, который включает хорошо известную проблему чтения субтитров с изображений компьютером. В последнее время в авангарде этого находятся нейронные сети, которые нашли применение и в других областях. Это, например, обработка естественного языка, которая касается, например. анализ того, как люди говорят о данном продукте в Интернете, или обнаружение плагиата, состоящего в перефразировании предложений. Наиболее захватывающей областью машинного обучения, по-видимому, является анализ изображений, который включает хорошо известную проблему чтения субтитров с изображений компьютером. В последнее время в авангарде этого находятся нейронные сети, которые нашли применение и в других областях. Это, например, обработка естественного языка, которая касается, например. анализ того, как люди говорят о данном продукте в Интернете, или обнаружение плагиата, состоящего в перефразировании предложений.

Визуализация

Еще один навык, который может не сразу ассоциироваться с работой, выполняемой Data Scientist, — это визуализация данных.. Он создает чертежи как для себя (чтобы лучше понимать данные и иметь возможность принимать более правильные решения), так и для представления более широкой аудитории (например, совету директоров в презентации или отчете) сделанных им выводов. Например: мы можем создать гистограмму, где мы можем увидеть, сколько у нас клиентов в разных возрастных группах. Есть ли более молодые или пожилые клиенты? Можно ли использовать эти знания для настройки рекламной кампании? Другими, типичными и известными, например, из опросов поддержки отдельных политических партий, являются столбчатые и круговые диаграммы. Более продвинутые рисунки, скорее для самого Data Scientist, это бокс-плоты, которые позволяют лучше рассмотреть распределение изучаемой переменной, или корреляционные графики двух переменных, благодаря чему можно увидеть, как меняется значение одного признака в зависимости от допущенных значений в другом. Таким образом, вы можете, например, проверить, приводит ли увеличение числа продавцов в данной области к увеличению продаж.

Коммуникация

Последнее качество, которым должен обладать каждый хороший Data Scientist, — это умение хорошо общаться — как письменно, так и устно.. Как правило, после проведения всего анализа, расчета всех возможных средних и дисперсий, тестирования множества различных статистических моделей как на прогноз, так и на производительность, все эти результаты должны быть представлены в виде презентации, отчета или научной статьи. Вот когда пригодится квалификация в умелом и понятном, часто не знакомом с предметом, формулировании мыслей так, чтобы донести всю важную информацию и тонкости, связанные с анализом. Здесь также пригодятся навыки составления соответствующих таблиц (например, сводных), которые будут представлять полученные результаты в простом и наглядном виде, а также подготовка вышеупомянутых визуализаций, содержащих информацию, которую было бы сложно включить в виде сухой стол.
Наше агентство по подбору ИТ-персонала предлагает вам найти квалифицированных разработчиков за срок менее 2 недель. Свяжитесь с нами прямо сейчас, чтобы узнать подробнее о возможностях расширения вашего будущего проекта. Мы обеспечиваем подбор лучших кандидатов по разумной цене. За 10 лет работы в этой сфере мы успешно заполнили свыше 5500 вакансий и сформировали 25+ команд с нуля. Проверьте отзывы от наших клиентов об агентстве и убедитесь в нашей компетентности! Если требуются дополнительные рекомендации, пишите нам в Telegram.