Описание должности
Как инженер по эксплуатации, вы будете играть ключевую роль в проектировании, внедрении и поддержке масштабируемых и безопасных инфраструктурных решений. Эта должность требует практического опыта работы с облачными платформами, включая Amazon AWS и Alibaba Cloud, для обеспечения оптимальной производительности и надежности системы. Вы будете отвечать за управление сложными облачными ресурсами, такими как VPC, CDN, S3, ECS, EKS, ELB, MySQL, Redis и ElastiSearch, а также за сотрудничество с кросс-функциональными командами для согласования технических стратегий с бизнес-целями. Роль включает постоянное совершенствование операционных процессов, автоматизацию повторяющихся задач и активный мониторинг состояния системы для предотвращения простоев и обеспечения бесперебойной работы пользователей.
Ключевые обязанности
- Руководство созданием и управлением облачных инфраструктурных ресурсов в Amazon AWS и Alibaba Cloud, включая проектирование и настройку сетей VPC, оптимизацию производительности CDN и управление решениями для хранения объектов, такими как S3. Внедрение фреймворков оркестрации контейнеров (ECS, EKS) и обеспечение эффективного распределения ресурсов для масштабируемых приложений.
- Сотрудничество с командами разработчиков для оптимизации процесса сборки кода, обеспечения эффективных CI/CD-конвейеров и бесперебойной интеграции с инструментами оркестрации контейнеров. Разработка и поддержка возможностей автоматизации операций с контейнерами с использованием Docker, Kubernetes и платформ оркестрации для сокращения ручного вмешательства и повышения эффективности развертывания.
- Проектирование и внедрение решений высокой доступности для критически важных систем, обеспечение отказоустойчивости и минимального времени простоя. Установка комплексных механизмов мониторинга безопасности с использованием таких инструментов, как AWS CloudTrail, Alibaba Cloud Security Center и платформы SIEM. Разработка и выполнение механизмов восстановления после сбоев, включая планы аварийного восстановления и регулярные учения по реагированию на инциденты для проверки устойчивости системы.
- Мониторинг производительности системы и метрик безопасности в реальном времени с использованием таких инструментов, как Prometheus, Grafana и стек ELK. Анализ логов и предупреждений для выявления потенциальных проблем и реализации упреждающих мер по снижению рисков. Ведение документации по конфигурациям инфраструктуры, протоколам безопасности и операционным процедурам для обеспечения обмена знаниями и соответствия отраслевым стандартам.
- Поддержка управления инцидентами и устранение неисправностей путем координации с дежурными командами и решения критических проблем во время простоев в производстве. Проведение анализа первопричин для выявления уязвимостей системы и реализации долгосрочных решений для предотвращения повторения. Отслеживание новых облачных технологий и лучших практик в отрасли для постоянного повышения операционных возможностей.
Требования к должности
- Подтвержденный опыт работы (3+ года) в облачной эксплуатации с экспертизой в Amazon AWS и Alibaba Cloud. Демонстрация способности проектировать и управлять сложными облачными архитектурами, включая сети, хранилища и решения для баз данных.
- Глубокое знание технологий контейнеризации (Docker, Kubernetes) и разработки CI/CD-конвейеров. Опыт работы с инструментами автоматизации, такими как Terraform, Ansible и Jenkins, для оптимизации процессов предоставления инфраструктуры и развертывания.
- Глубокое понимание лучших практик высокой доступности, аварийного восстановления и безопасности. Знакомство с такими инструментами, как AWS Auto Scaling, Alibaba Cloud Load Balancer и платформами мониторинга безопасности (SIEM), для обеспечения надежности системы и защиты данных.
- Отличные навыки решения проблем с возможностью устранения сложных системных неисправностей. Сильное аналитическое мышление для выявления узких мест в производительности и реализации решений, основанных на данных, для оптимизации системы.
- Способность работать в быстро меняющейся среде с минимальным контролем. Навыки эффективного общения для сотрудничества с разработчиками, командами безопасности и заинтересованными сторонами при документировании технических процессов и представлении решений.
- Предпочтительные квалификации включают сертификаты в области облачных вычислений (AWS Certified Solutions Architect, Alibaba Cloud ACA) и оркестрации контейнеров (CKA, AWS Certified Kubernetes). Знакомство с практиками DevOps и методологиями инфраструктуры как кода (IaC) является значительным преимуществом.
