职位描述
负责规划、实施和维护支持关键业务应用的基础设施解决方案,涵盖生产环境和非生产环境。这包括设计和部署安全、可扩展的基础设施,以满足不断变化的业务需求,同时确保系统的高可用性和可靠性。该职位需要与跨职能团队合作,使基础设施战略与组织目标和监管要求保持一致。候选人还将负责优化基础设施性能、管理风险,并确保符合行业标准和内部政策。
主要职责
- 使用敏捷方法论规划和执行基础设施变更,确保生产环境和非生产环境中关键应用的无缝运行,在整个开发生命周期中保持稳定性和性能。
- 设计并实施新的基础设施解决方案,优先考虑安全性、可扩展性和合规性,确保满足关键应用的需求,同时遵循行业最佳实践和组织标准。
- 通过主动监控、定期维护和快速响应事件,确保现有关键系统的可用性和可靠性,最大限度地减少对业务运营的干扰。
- 使用基础设施即代码(IaC)工具(如Terraform和CloudFormation)自动化新账户和环境的配置,减少手动操作,确保部署的一致性。
- 与风险管理及合规团队合作,建立并执行安全协议,进行漏洞评估,并确保制定恢复计划以应对潜在威胁和数据丢失场景。
- 开发并维护端到端的部署管道,实现应用的高效、可重复和可靠交付,集成CI/CD平台和配置管理工具。
- 主动排查基础设施问题,识别根本原因,并实施有效的补救策略,最大限度地减少停机时间,确保客户服务的持续可用性。
- 实施全面的监控、日志记录和指标遥测系统,跟踪系统性能,检测异常,并为优化和事件解决提供可操作的见解。
- 创建并维护详细的基础设施配置、操作流程和维护指南文档,确保团队成员和利益相关者的清晰理解。
职位要求
- 在基础设施管理方面有成功经验,具备在云或混合环境中部署和维护关键系统的卓越记录。
- 精通敏捷和DevOps方法论,能够将业务需求转化为符合项目时间表和技术标准的基础设施解决方案。
- 深入了解基础设施即代码(IaC)工具(如Terraform、CloudFormation和Ansible),熟练编写和维护自动化配置脚本。
- 熟悉AWS、Azure或GCP等云平台,具备设计可扩展、安全且成本效益高的基础设施架构的经验。
- 能够与合规和风险团队紧密合作,确保基础设施解决方案符合监管标准、数据保护法律和内部安全政策。
- 具备出色的问题解决能力,专注于根本原因分析和系统优化,同时能够向非技术人员清晰传达技术发现。
- 熟练使用Prometheus、Grafana或CloudWatch等监控工具,具备设置告警系统的经验,以实现主动的事件管理。
- 具备优秀的文档编写能力,能够创建清晰、简洁、及时的技术文档,涵盖基础设施流程和系统配置。
- 具备出色的沟通和协作能力,能够在跨职能团队中有效工作,并在基础设施项目中提供领导力。
- 能够适应快速变化的技术环境,持续改进基础设施实践,以符合新兴行业趋势和组织需求。