Описание должности
Ключевые обязанности
- Обеспечивать круглосуточную доступность критической инфраструктуры за счет активного мониторинга, обслуживания и устранения неисправностей серверов, сетей и систем хранения данных.
- Оптимизировать производительность и масштабируемость системы путем анализа узких мест, настройки конфигураций и внедрения инструментов автоматизации для управления ресурсами.
- Оперативно реагировать на инциденты, проводить анализ первопричин и документировать решения для предотвращения повторения, соблюдая SLA.
- Развертывать и управлять кластерами Kubernetes, включая оркестрацию контейнеров, подготовку узлов и интеграцию с CI/CD-конвейерами.
- Внедрять лучшие практики безопасности и стандарты соответствия для защиты активов инфраструктуры и обеспечения целостности данных.
- Сотрудничать с разработчиками и командами DevOps для проектирования масштабируемых архитектур и устранения проблем на уровне приложений.
- Мониторить метрики и логи системы для выявления тенденций производительности, оптимизации распределения ресурсов и повышения общей надежности системы.
- Следить за новыми технологиями и тенденциями отрасли, чтобы рекомендовать улучшения и инновации в инфраструктуре.
- Документировать технические процессы, конфигурации и решения инцидентов для обеспечения обмена знаниями и операционной непрерывности.
- Проводить регулярные аудиты системы и планирование мощностей для прогнозирования будущих потребностей и обеспечения готовности инфраструктуры.
Требования к должности
- Подтвержденный опыт управления инфраструктурой не менее 5 лет в области системного администрирования, DevOps или смежных областях.
- Экспертные знания в развертывании, настройке и эксплуатации кластеров Kubernetes, включая знакомство с инструментами оркестрации контейнеров, такими как Docker и Helm.
- Глубокое понимание облачных платформ (AWS, Azure, GCP) и гибридных облачных сред для масштабируемости инфраструктуры.
- Владение скриптовыми языками (Python, Bash, PowerShell) и фреймворками автоматизации для задач обслуживания системы.
- Знание сетевых протоколов, управления DNS и практик безопасности (брандмауэры, шифрование, IAM) для обеспечения отказоустойчивости инфраструктуры.
- Способность анализировать метрики производительности системы и внедрять решения для снижения задержек и оптимизации ресурсов.
- Опыт работы с инструментами мониторинга (Prometheus, Grafana, стек ELK) для отслеживания состояния системы в реальном времени и обнаружения инцидентов.
- Отличные навыки решения проблем и аналитический склад ума для диагностики сложных технических проблем и разработки профилактических мер.
- Сильные коммуникативные навыки для взаимодействия с заинтересованными сторонами, документирования технических процессов и эффективного представления решений.
- Предпочтительные сертификации, такие как Certified Kubernetes Administrator (CKA), AWS Certified Solutions Architect или CompTIA Security+.
- Способность работать в условиях высокой динамики с высокой внимательностью к деталям и организационными навыками.
- Опыт работы с CI/CD-конвейерами и практиками инфраструктуры как кода (IaC) для автоматизированного развертывания и управления конфигурациями.
- Понимание стратегий аварийного восстановления и планирования непрерывности бизнеса для обеспечения отказоустойчивости инфраструктуры.
- Знание технологий контейнеризации и архитектуры микросервисов для масштабируемых облачных решений.
- Способность проектировать и внедрять безопасные, высокопроизводительные решения инфраструктуры, соответствующие корпоративным требованиям.
