SRE Инженер
Задачи
- Поддержка сервисов и команд разработки
со стороны инфраструктуры;
- Обеспечение надежности и масштабируемости
систем;
- Выявление и устранение узких мест
в производительности;
- Настройка систем мониторинга, логирования
и трейсинга;
- Предотвращение потенциальных сбоев;
- Оптимизация CI/CD пайплайнов, внедрение
инфраструктуры как код (IaC) и автоматизация рутинных задач;
- Продвижение практик DevOps в сторону
разработки: внедрение best practices DevOps, таких как мониторинг SLA, SLO, SLI, анализ инцидентов (postmortem) и управление изменениями;
- Участие в создании и развитии инфраструктурных
платформ;
- Обеспечение безопасности, надежности,
отказоустойчивости и быстрого восстановления после сбоев платформы.
Требования
- Практический опыт в администрировании
и поддержки информационных систем семейства Linux (Debian, Ubuntu, Rocky);
- Владение bash или python как инструментарием
для автоматизации рутинной деятельности;
- Практический опыт применения систем
оркестрации контейнеров (Kubernetes, Docker compose);
- Практический опыт работы с контейнерами
(Docker), знание основ построения Dockerfile и лучших практик в этой области;
- Владение системами управления конфигурациями
(Ansible, Terraform, Pulumi) и практический опыт применения таких систем в процессах построения IaC (Infrastructure as Code;
- Применение инструментов GitLab CI и Jenkins
в построении процессов сборки и доставки;
- Практический опыт применения и администрирования;
- Систем мониторинга на базе Prometheus, Zabbix, Grafana Stack, Alertmanager, VictoriaMetrics;
- Практический опыт взаимодействия с системами потоковой передачи событий (Kafka, RabbitMQ);
- Знание методологий Agile, опыт работы в тикетных системах (Atlassian Jira, Yandex Tracker и др.) и системах хранения документации (Atlassian Confluence, Evawiki и другие Wiki);
- Практический опыт эксплуатации веб-серверов
и балансировщиков нагрузки (Nginx, HAProxy, Traefik, APISIX);
- Практический опыт администрирования
систем управления реляционными базами данных (PostgreSQL, Greenplum, MySQL), кластеризации на базе Patroni, а также колоночной СУБД ClickHouse;
- Практический опыт применения NoSQL
и Key-Value систем (Elasticsearch, OpenSearch, etcd, Redis, Memcached);
- Практический опыт применения систем
централизованного сбора и хранения логов на базе стеков: Logstash, Fluent Bit, Vector, Graylog, Loki;
- Практический опыт применения систем
объектного хранения на базе S3 (MinIO), а также инструментов доступа к ним;
- Навыки работы с облачными системами
(Amazon Web Services, Google Cloud Services или Yandex Cloud) и системами управления ими;
- Практический опыт оркестрации пайплайнов
обработки данных на базе Apache Airflow;
- Опыт развертывания и сопровождения
JupyterHub;
- Владение инструментарием распределённой
обработки данных (Apache Spark, Spark Streaming);
- Опыт работы с Iceberg REST Catalog как каталогом табличных данных;
- Практический опыт применения MLflow
для отслеживания экспериментов, регистрации моделей и управления их жизненным циклом;
- Практический опыт организации GPU-вычислений
в Kubernetes (включая установку NVIDIA GPU Operator, настройку драйверов, мониторинг и планирование GPU-ресурсов);
- Знакомство с векторными базами данных
(Qdrant) в составе ML-платформы;
- Знакомство с платформой автоматизации
процессов на базе n8n.