Mô Tả Công Việc
Chúng tôi đang tìm kiếm một Kỹ sư Dữ liệu Lớn có kỹ năng để thiết kế, phát triển và tối ưu hóa các quy trình ETL đồng thời đảm bảo tính chính xác, đầy đủ và kịp thời của dữ liệu. Vai trò bao gồm hợp tác với các nhóm chức năng chéo để triển khai các giải pháp dữ liệu hiệu quả và hỗ trợ nhu cầu kinh doanh.
Trách Nhiệm Chính
- Thiết kế, phát triển và tối ưu hóa các quy trình ETL dữ liệu lớn để đáp ứng yêu cầu kinh doanh
- Tham gia vào thiết kế kiến trúc kho dữ liệu và phát triển các giải pháp ETL phù hợp
- Phát triển ứng dụng Spark để xử lý dữ liệu quy mô lớn, bao gồm làm sạch, chuyển đổi và tải dữ liệu
- Tối ưu hóa hiệu suất công việc Spark để cải thiện hiệu quả và giảm tiêu thụ tài nguyên
- Viết script Python cho các nhiệm vụ thu thập, tiền xử lý và giám sát dữ liệu
- Tích hợp mã Python với ứng dụng Spark cho các quy trình làm việc dữ liệu phức tạp
- Phát triển trong môi trường PySpark để tận dụng lợi thế kết hợp của Python và Spark
- Khắc phục sự cố kỹ thuật PySpark bao gồm chuyển đổi kiểu dữ liệu và tối ưu hóa hiệu suất
- Triển khai chiến lược giám sát chất lượng dữ liệu và thực hiện kiểm tra chất lượng ETL
- Thiết lập cơ chế báo cáo chất lượng dữ liệu và hỗ trợ ra quyết định
- Hợp tác với các nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư kho dữ liệu trong các dự án
- Tham gia chia sẻ kiến thức kỹ thuật để nâng cao năng lực nhóm
Yêu Cầu Công Việc
- Kinh nghiệm mạnh trong thiết kế và tối ưu hóa quy trình ETL dữ liệu lớn
- Thành thạo phát triển ứng dụng Spark và điều chỉnh hiệu suất
- Chuyên môn về lập trình Python cho các nhiệm vụ xử lý dữ liệu
- Kinh nghiệm thực tế với tích hợp và phát triển PySpark
- Hiểu biết về phương pháp và công cụ đảm bảo chất lượng dữ liệu
- Hiểu biết về nguyên tắc kiến trúc kho dữ liệu
- Khả năng khắc phục sự cố xử lý dữ liệu phức tạp
- Kỹ năng hợp tác và giao tiếp xuất sắc
- Kinh nghiệm làm việc trong các nhóm dữ liệu chức năng chéo
- Tư duy học hỏi liên tục và thái độ chia sẻ kiến thức
Ưu Tiên
- Kinh nghiệm với các công nghệ dữ liệu lớn bổ sung (Hadoop, Hive, v.v.)
- Hiểu biết về nền tảng dữ liệu đám mây (AWS, Azure, GCP)
- Quen thuộc với các công cụ trực quan hóa và báo cáo dữ liệu
- Hiểu biết về khái niệm và ứng dụng học máy
- Kinh nghiệm trước đây trong triển khai khung quản trị dữ liệu
