Mô Tả Công Việc
Trách Nhiệm Chính
- Đảm bảo tính khả dụng 24/7 của cơ sở hạ tầng quan trọng thông qua giám sát chủ động, bảo trì và khắc phục sự cố máy chủ, mạng và hệ thống lưu trữ.
- Tối ưu hóa hiệu suất và khả năng mở rộng của hệ thống bằng cách phân tích các điểm nghẽn, điều chỉnh cấu hình và triển khai các công cụ tự động hóa để quản lý tài nguyên.
- Ứng phó kịp thời với các sự cố, tiến hành phân tích nguyên nhân gốc rễ và ghi lại giải pháp để ngăn ngừa tái diễn trong khi tuân thủ SLA.
- Triển khai và quản lý các cụm Kubernetes, bao gồm điều phối container, cung cấp nút và tích hợp với các đường ống CI/CD.
- Áp dụng các phương pháp bảo mật tốt nhất và tiêu chuẩn tuân thủ để bảo vệ tài sản cơ sở hạ tầng và đảm bảo tính toàn vẹn dữ liệu.
- Hợp tác với các nhóm phát triển và DevOps để thiết kế kiến trúc có thể mở rộng và khắc phục sự cố ở cấp ứng dụng.
- Giám sát các chỉ số hệ thống và nhật ký để xác định xu hướng hiệu suất, tối ưu hóa phân bổ tài nguyên và cải thiện độ tin cậy tổng thể của hệ thống.
- Cập nhật các công nghệ mới nổi và xu hướng ngành để đề xuất cải tiến và đổi mới cơ sở hạ tầng.
- Tài liệu hóa các quy trình kỹ thuật, cấu hình và giải pháp sự cố để đảm bảo chia sẻ kiến thức và duy trì hoạt động.
- Thực hiện kiểm toán hệ thống định kỳ và lập kế hoạch công suất để dự đoán nhu cầu tương lai và đảm bảo sẵn sàng cơ sở hạ tầng.
Yêu Cầu Công Việc
- Có kinh nghiệm được chứng minh trong quản lý cơ sở hạ tầng với tối thiểu 5 năm trong quản trị hệ thống, DevOps hoặc các lĩnh vực liên quan.
- Chuyên môn về triển khai, cấu hình và vận hành cụm Kubernetes, bao gồm quen thuộc với các công cụ điều phối container như Docker và Helm.
- Hiểu biết sâu sắc về các nền tảng đám mây (AWS, Azure, GCP) và môi trường đám mây lai để mở rộng cơ sở hạ tầng.
- Thành thạo các ngôn ngữ kịch bản (Python, Bash, PowerShell) và khung tự động hóa cho các nhiệm vụ bảo trì hệ thống.
- Kiến thức về giao thức mạng, quản lý DNS và thực hành bảo mật (tường lửa, mã hóa, IAM) để đảm bảo khả năng phục hồi của cơ sở hạ tầng.
- Khả năng phân tích các chỉ số hiệu suất hệ thống và triển khai giải pháp giảm độ trễ và tối ưu hóa tài nguyên.
- Kinh nghiệm với các công cụ giám sát (Prometheus, Grafana, ELK stack) để theo dõi tình trạng hệ thống thời gian thực và phát hiện sự cố.
- Kỹ năng giải quyết vấn đề xuất sắc và tư duy phân tích để chẩn đoán các vấn đề kỹ thuật phức tạp và phát triển các biện pháp phòng ngừa.
- Khả năng giao tiếp mạnh mẽ để hợp tác với các bên liên quan, tài liệu hóa quy trình kỹ thuật và trình bày giải pháp hiệu quả.
- Các chứng chỉ ưu tiên như Certified Kubernetes Administrator (CKA), AWS Certified Solutions Architect hoặc CompTIA Security+.
- Khả năng làm việc trong môi trường nhịp độ nhanh với sự chú ý cao đến chi tiết và kỹ năng tổ chức.
- Kinh nghiệm với các đường ống CI/CD và thực hành cơ sở hạ tầng dưới dạng mã (IaC) để triển khai tự động và quản lý cấu hình.
- Hiểu biết về chiến lược khôi phục sau thảm họa và lập kế hoạch liên tục kinh doanh để đảm bảo khả năng phục hồi của cơ sở hạ tầng.
- Kiến thức về công nghệ container hóa và kiến trúc microservices cho các giải pháp đám mây có thể mở rộng.
- Khả năng thiết kế và triển khai các giải pháp cơ sở hạ tầng an toàn, hiệu suất cao đáp ứng yêu cầu doanh nghiệp.
