SRE Инженер

Задачи

- Поддержка сервисов и команд разработки

со стороны инфраструктуры;

- Обеспечение надежности и масштабируемости

систем;

- Выявление и устранение узких мест

в производительности;

- Настройка систем мониторинга, логирования

и трейсинга;

- Предотвращение потенциальных сбоев;

- Оптимизация CI/CD пайплайнов, внедрение

инфраструктуры как код (IaC) и автоматизация рутинных задач;

- Продвижение практик DevOps в сторону

разработки: внедрение best practices DevOps, таких как мониторинг SLA, SLO, SLI, анализ инцидентов (postmortem) и управление изменениями;

- Участие в создании и развитии инфраструктурных

платформ;

- Обеспечение безопасности, надежности,

отказоустойчивости и быстрого восстановления после сбоев платформы.

Требования

- Практический опыт в администрировании

и поддержки информационных систем семейства Linux (Debian, Ubuntu, Rocky);

- Владение bash или python как инструментарием

для автоматизации рутинной деятельности;

- Практический опыт применения систем

оркестрации контейнеров (Kubernetes, Docker compose);

- Практический опыт работы с контейнерами

(Docker), знание основ построения Dockerfile и лучших практик в этой области;

- Владение системами управления конфигурациями

(Ansible, Terraform, Pulumi) и практический опыт применения таких систем в процессах построения IaC (Infrastructure as Code;

- Применение инструментов GitLab CI и Jenkins

в построении процессов сборки и доставки;

- Практический опыт применения и администрирования;

- Систем мониторинга на базе Prometheus, Zabbix, Grafana Stack, Alertmanager, VictoriaMetrics;

- Практический опыт взаимодействия с системами потоковой передачи событий (Kafka, RabbitMQ);

- Знание методологий Agile, опыт работы в тикетных системах (Atlassian Jira, Yandex Tracker и др.) и системах хранения документации (Atlassian Confluence, Evawiki и другие Wiki);

- Практический опыт эксплуатации веб-серверов

и балансировщиков нагрузки (Nginx, HAProxy, Traefik, APISIX);

- Практический опыт администрирования

систем управления реляционными базами данных (PostgreSQL, Greenplum, MySQL), кластеризации на базе Patroni, а также колоночной СУБД ClickHouse;

- Практический опыт применения NoSQL

и Key-Value систем (Elasticsearch, OpenSearch, etcd, Redis, Memcached);

- Практический опыт применения систем

централизованного сбора и хранения логов на базе стеков: Logstash, Fluent Bit, Vector, Graylog, Loki;

- Практический опыт применения систем

объектного хранения на базе S3 (MinIO), а также инструментов доступа к ним;

- Навыки работы с облачными системами

(Amazon Web Services, Google Cloud Services или Yandex Cloud) и системами управления ими;

- Практический опыт оркестрации пайплайнов

обработки данных на базе Apache Airflow;

- Опыт развертывания и сопровождения

JupyterHub;

- Владение инструментарием распределённой

обработки данных (Apache Spark, Spark Streaming);

- Опыт работы с Iceberg REST Catalog как каталогом табличных данных;

- Практический опыт применения MLflow

для отслеживания экспериментов, регистрации моделей и управления их жизненным циклом;

- Практический опыт организации GPU-вычислений

в Kubernetes (включая установку NVIDIA GPU Operator, настройку драйверов, мониторинг и планирование GPU-ресурсов);

- Знакомство с векторными базами данных

(Qdrant) в составе ML-платформы;

- Знакомство с платформой автоматизации

процессов на базе n8n.