Mô Tả Công Việc
Trách Nhiệm Chính
- Thiết kế và triển khai huấn luyện mô hình quy mô lớn bằng các framework deep learning phân tán như PyTorch, TensorFlow, Ray, v.v.
- Quản lý và tối ưu hóa quá trình huấn luyện và suy luận mô hình để đảm bảo hiệu suất và hiệu quả cao.
- Đóng gói ứng dụng deep learning bằng Docker và điều phối chúng bằng Kubernetes và Kubeflow.
- Triển khai và quản lý khối lượng công việc deep learning trên các nền tảng đám mây lớn bao gồm AWS, Google Cloud và Azure.
- Áp dụng các kỹ thuật nén mô hình và tăng tốc suy luận để tối ưu hóa hiệu suất.
- Triển khai các kỹ thuật suy luận dữ liệu batch stream để xử lý thời gian thực.
- Hợp tác với các nhóm chức năng chéo để phát triển và thực hiện chiến lược kỹ thuật cho các giải pháp tính toán phân tán và deep learning.
Yêu Cầu Công Việc
- Kinh nghiệm sâu rộng về các framework deep learning (PyTorch, TensorFlow, v.v.) và huấn luyện/tối ưu hóa mô hình.
- Chuyên môn vững chắc về container hóa (Docker) và kỹ thuật điều phối (Kubernetes, Kubeflow).
- Kinh nghiệm đã được chứng minh với các nền tảng điện toán đám mây (AWS, Google Cloud, Azure).
- Ưu tiên kinh nghiệm lập trình CUDA và tối ưu hóa giao tiếp đa GPU.
- Hiểu biết về các kỹ thuật xử lý dữ liệu batch stream.
- Khả năng làm việc hợp tác trong môi trường nhóm và đóng góp vào phát triển chiến lược kỹ thuật.
- Kỹ năng giải quyết vấn đề mạnh mẽ và khả năng làm việc trên các dự án AI/ML tiên tiến.
Yêu Cầu Ưu Tiên
- Kinh nghiệm với Ray hoặc các framework tính toán phân tán khác.
- Kiến thức nền tảng về hệ thống AI/ML phi tập trung.
- Có bài báo hoặc đóng góp cho các dự án mã nguồn mở trong các lĩnh vực liên quan.
