Как найти и нанять инженера эксплуатационной надежности (SRE)

Если ваше предприятие опирается на быстрорастущую технологическую инфраструктуру, вы поймете, почему должность инженера по надежности сайта (SRE) быстро стала незаменимой в ИТ-индустрии.

По мере того, как компании все чаще поддерживают ошеломляющий набор услуг и продуктов, проблема, с которой они сталкиваются, заключается в том, чтобы операционные группы могли идти в ногу с постоянно растущей сложностью технологического стека, обеспечивая при этом обновления и внедрение новых функций.

Например, представьте, что вы хотите внедрить новейшее и лучшее программное обеспечение для демонстрации экрана в своем бизнесе. Это требует планирования, реализации и мониторинга, чтобы обеспечить желаемый эффект.

Опыт SRE
Инженеры по надежности сайта обладают навыками и знаниями, необходимыми для постоянного улучшения стабильности и производительности вашей инфраструктуры. Одна полезная аналогия для размышлений о работе, которую выполняют SRE, состоит в том, чтобы представить их в качестве экспертов, готовых тушить пожары, когда в вашем бизнесе возникает чрезвычайная ситуация, гасить проблемы в корне, прежде чем они успеют вызвать сбои.

В этой статье вы узнаете, как нанять квалифицированного инженера по надежности сайта, а также роли и обязанности инженера по надежности сайта.

Что такое проектирование надежности сайта (SRE)?
Site Reliability Engineering существует для разрешения или уменьшения конфликта между разработчиками и их вниманием к разработке программного обеспечения, а роль операционной группы заключается в обеспечении того, чтобы это развертывание новых или обновленных продуктов с улучшенной функциональностью не приводило к сбоям и общему снижению производительности. В качестве терминов инженеры SRE и DevOps часто используются взаимозаменяемо.

Хотя их соответствующие обязанности тесно связаны между собой, между ними есть заметные различия. Точно так же, как Power Dialer эффективно автоматизирует процесс совершения звонков сотням потенциальных агентов колл-центра, DevOps относится к общей автоматизации повторяющихся ИТ-задач во всей вашей инфраструктуре, чтобы свести к минимуму человеческие усилия и свести к минимуму человеческие ошибки. И инженеры DevOps занимаются этим процессом, уделяя особое внимание производственной среде.

Хотя SRE обеспокоен перспективой надежности, отказоустойчивости и производительности этой инфраструктуры в целом, это включает в себя непрерывный анализ, направленный на прогнозирование узких мест в производительности при оптимизации инфраструктуры и рабочих процессов для обеспечения долгосрочной устойчивости.

Каковы основные обязанности инженера по надежности объекта?
Хотя роль, безусловно, варьируется в зависимости от проектов и целей предприятия, SRE обычно планирует и предоставляет эту инфраструктуру в виде платформы, инструментов и услуг, которые позволяют командам просматривать свои показатели и получать представление о своих рабочих процессах обслуживания. Дальнейшие обязанности SRE можно разделить следующим образом:

  • Сбор целей и требований проекта от заинтересованных сторон
  • Проектирование высокоуровневых представлений всей инфраструктуры, включая инструменты и рабочие процессы.
  • Предоставление компаниям обновлений о работоспособности служб путем внедрения и мониторинга метрик и ключевых показателей эффективности, которые измеряют такие вещи, как производительность сотрудников в различных системах и службах.
  • Выполнение анализа для выявления основных причин проблем и оптимизации контрмер путем разработки и создания предупреждений и процессов по вызову на случай непредвиденных обстоятельств.
  • Расчет потенциальной стоимости простоев и установление строгих стандартов соглашения об уровне обслуживания (SLA) для повышения производительности системы и сбалансированной доступности.
  • Поддержка руководства в анализе того, как производительность системы влияет на коммерческие продажи, доходы и маркетинговые функции.
  • Подготовка исходных данных для обновлений инфраструктуры, инструментов и процессов в компании.
  • Демонстрация командам DevOps того, как придерживаться рекомендаций и инструкций по необходимым действиям и проверкам системы, чтобы свести к минимуму ошибки и инциденты.
  • Создание и ведение документации, которая помогает в мониторинге.
Конечно, учитывая уникальность и специфику разных бизнесов, это не исчерпывающий список обязанностей SRE.

И хотя SRE может показаться универсальным решением для преодоления разрыва между командами разработки и эксплуатации, учитывая затраты с точки зрения заработной платы, стоит подумать о том, стоит ли инвестировать в эту роль.

Зачем нанимать SRE для вашей команды?
Давайте рассмотрим некоторые случаи, указывающие на то, что наем SRA является правильным решением для вашей организации.

Чтобы предотвратить простои, которые влияют на ваши продукты и услуги
Ожидания клиентов застыли так, что сегодня они ожидают, что их приложения будут работать постоянно. Таким образом, затраты на простои непомерно высоки по всем направлениям, что неизменно приводит как к потере клиентов, так и к потере доходов. SRE предотвратят длительные простои продуктов и услуг и сократят потенциально огромные потери.

Оценка и снижение риска
Постоянно растущая угроза кибератак означает, что дальновидные предприятия, обязанные соблюдать законодательство, должны нанять SRE в качестве эксперта для подготовки контрмер заранее. В противном случае ущерб от нарушения кибербезопасности может быть катастрофическим.

Для ускорения циклов разработки
Совершенствуя и внедряя принципы DevOps, SRE автоматизируют поставку программного обеспечения и внедряют передовой опыт среди вовлеченных команд, например, когда вы хотите развернуть новую программную технологию, такую как решения RPA. Имея метрики мониторинга, компании с SRE сокращают затраты на разработку и могут быстрее и прогнозируемее предоставлять более качественные приложения и продукты.

Для повышения рентабельности
Мы уже упоминали о разрушительных затратах на простои при работе с системой реального времени. SRE устраняют эту потенциально огромную трату ресурсов и позволяют вам удовлетворять потребности ваших клиентов в самые прибыльные периоды пиковой нагрузки.

Если вы можете относиться к ситуации, изложенной выше, и найти себя на рынке для SRE, вам затем нужно будет рассмотреть навыки, на которые нужно обратить внимание, и проблемы, связанные с его наймом.

Должностная инструкция инженера по надежности сайта
Естественно, SRE будут использовать различное сочетание инструментов в зависимости от ваших конкретных систем и постоянно улучшающихся продуктов и услуг, которые предоставляет ваш бизнес. Тем не менее, набор навыков SRE включает в себя широкий спектр навыков и компетенций в области разработки, DevOps и системного администрирования. Кроме того, каждый инженер по надежности сайта должен обладать рядом необходимых социальных навыков.

Основные технические навыки
Как правило, SRE должны быть разносторонними и разносторонними, в отличие от кандидатов с узкой специализацией в области технологий. Хотя они должны иметь возможность видеть общую картину, вот некоторые важные технические критерии SRE:

  • Знание и опыт работы с основными языками разработки программного обеспечения, такими как Python, C++ или Java.
  • Глубокие знания конвейера непрерывной интеграции, доставки и развертывания, а также таких инструментов, как Gitlab .
  • Экспертные знания основных операционных систем, таких как возможности ОС Linux.
  • Опыт внедрения CI/CD
  • Уверенное понимание концепций и лучших практик DevOps
  • Знания и опыт в устранении неполадок в ИТ и анализе первопричин (RCA)

Мягкие навыки
Наличие SRE с правильными нетехническими навыками и личными качествами так же важно для такой важной роли и с таким количеством движущихся частей, которые необходимо учитывать.

Работа под давлением Важнейшее значение имеет способность быть хорошо организованной и работать в критически важных или крупносерийных производственных средах.

Бизнес-анализ Точно так же, как опытные предприятия могут выбрать домен .ae, чтобы извлечь выгоду из растущего международного авторитета ОАЭ, например, SRE должен использовать такой подход, ориентированный на бизнес. Тот, который включает в себя кросс-функциональные метрики, что позволяет избежать узкого внимания к оптимизации системы и ориентировать команды на улучшение результатов для бизнеса в целом.

Решение проблем SRE должны уметь выявлять проблемы, выяснять причины и реализовывать решения.
Навыки коммуникации В дополнение к свободному техническому общению SRE также должны уметь доносить свои идеи до руководства и обеспечивать участие заинтересованных сторон в будущих проектах, таких как насущная потребность во внедрении лучшего решения для видеоконференций .

Проблемы с наймом

Справедливо сказать, что рынок SRE безумно конкурентный. Некоторые из крупнейших корпораций готовы, желают и могут раскошелиться на значительную заработную плату, чтобы избежать убытков, исчисляемых миллионами.

Одна из причин нехватки и сложности найма исключительно талантливых специалистов SRE заключается в том, что большинство из них уже были привлечены лидерами отрасли или поставщиками управляемых услуг (MSP). Потому что квалифицированных SRE мотивирует задача работы в крупных корпорациях, где SRE — это непрерывный путь преобразования их постоянно растущей инфраструктуры.

Или, аналогичным образом, они находят мотивацию в работе для MSP, предоставляющих SRE нескольким клиентам в качестве управляемой услуги. После того, как болевые точки будут решены, помимо задачи по созданию и обучению команды SRE, роль внутреннего SRE состоит в постоянном мониторинге, и лучшие SRE, как правило, ищут должности с большей вовлеченностью и вознаграждением.

Наше ИТ кадровое агентство предлагает вам найти SRE инженера менее чем за 2 недели. Свяжитесь с нами сегодня, чтобы узнать больше о том, как мы можем помочь масштабировать ваш следующий проект до новых высот. Мы гарантируем поиск самого сильного, а не самого дорого кандидата. За 10 лет в подборе it специалистов, мы закрыли 5500+ вакансий и собрали 25+ команд с нуля. Убедитесь сами и ознакомьтесь с отзывами клиентов о нашем рекрутинговом агентстве! Нужно больше референсов? Напишите нам в телеграмм.
HR Блог для IT рекрутера в Телеграм
Хочешь всегда получать новые статьи, бесплатные материалы и полезные HR лайфхаки! Подписывайся на нас в Telegram! С нами подбор ит персонала становится проще ;)

Расскажите, каких специалистов вы ищете: мы обязательно поможем их найти

работаем 24 на 7