职位描述
作为高级云运维开发工程师,您将负责设计、部署和维护可扩展的云基础设施解决方案。该职位需运用Kubernetes等容器技术及编排系统,确保应用生命周期的高效管理。您需跨团队协作实施符合行业最佳实践的运维方案,持续优化系统性能与可靠性。核心职责包括:使用Grafana和Prometheus等工具进行大规模基础设施监控;执行分布式应用的容量与负载测试;分析性能趋势以预判需求变化。理想候选人还需从硬件、操作系统到网络配置及应用逻辑等多层部署中,识别并解决可用性与性能问题。
核心职责
- 基于容器及编排系统(如Kubernetes)设计云原生架构,确保高可用性、可扩展性和容错能力
 - 管理AWS/Azure/GCP混合云环境,包括基础设施配置、安全合规与配置管理
 - 构建自动化CI/CD流水线,实现微服务与分布式应用的零停机部署
 - 执行全链路性能测试、基准评估与容量规划,确保系统满足SLA要求
 - 通过可观测性工具实时监控基础设施健康状态,建立预警机制
 - 协同开发团队实现可扩展应用设计,全链路排查生产环境问题
 - 编写系统架构文档、运维手册及性能分析报告
 - 跟踪云技术与DevOps前沿动态,持续提升基础设施效率
 - 主导重大故障的应急响应与根因分析,制定预防措施
 - 配合安全团队落实数据保护法规与云安全最佳实践
 
任职要求
- 5年以上云基础设施运维及DevOps实战经验
 - 精通Kubernetes等编排系统及AWS/Azure/GCP云平台
 - 深刻理解微服务架构、API网关及分布式系统设计原则
 - 熟练使用Terraform/Ansible/CloudFormation等基础设施即代码工具
 - 具有Grafana/Prometheus/ELK等大规模监控方案实施经验
 - 掌握云环境下的网络协议、负载均衡与DNS配置
 - 具备跨基础设施层的性能指标分析与优化能力
 - 丰富的复杂云基础设施问题排查经验
 - 精通Python/Bash等脚本语言及云原生自动化工具链
 - 优秀的跨团队沟通协调能力
 - 优先条件:AWS认证DevOps工程师或同级云认证
 - 优先条件:熟悉无服务器架构及云成本优化策略
 - 优先条件:了解SOC2/GDPR等安全合规框架
 - 优先条件:具备云基础设施团队管理及新人指导经验
 


