Mô Tả Công Việc
Trách Nhiệm Chính
- Áp dụng các phương pháp tốt nhất trong thiết kế và quản lý kho dữ liệu để giảm độ phức tạp và chi phí, sử dụng các công cụ như DBT, SQL, Python, Airflow và GitHub trên nền tảng Google Cloud Platform.
- Thiết kế và thực hiện các quy trình thu thập dữ liệu để chuyển dữ liệu từ các nguồn khác nhau vào kho dữ liệu đám mây (BigQuery), đảm bảo tính chính xác và kịp thời của dữ liệu.
- Hỗ trợ tích hợp nhiều nguồn dữ liệu, bao gồm Google Analytics, cơ sở dữ liệu giao dịch, máy chủ SFTP và các tập dữ liệu công cộng được truy cập qua API và webhook, vào BigQuery để quản lý dữ liệu tập trung.
- Tối ưu hóa hiệu suất kho dữ liệu thông qua điều chỉnh truy vấn, thiết kế lược đồ và phân bổ tài nguyên, đồng thời giám sát chất lượng dữ liệu và triển khai các biện pháp khắc phục.
- Thiết lập và duy trì các khung quản trị dữ liệu để đảm bảo tính toàn vẹn, bảo mật và tuân thủ các yêu cầu pháp lý.
- Hợp tác với các bên liên quan để xác định nhu cầu dữ liệu, ghi chép quy trình và cung cấp hướng dẫn kỹ thuật cho việc triển khai chiến lược dữ liệu.
- Phát triển và duy trì tài liệu về quy trình làm việc với dữ liệu, quy trình tích hợp và cấu hình hệ thống để hỗ trợ chia sẻ kiến thức trong nhóm và khả năng mở rộng trong tương lai.
- Tham gia đánh giá các công cụ và công nghệ mới để nâng cao khả năng xử lý dữ liệu và cải thiện hiệu quả hoạt động.
Yêu Cầu Công Việc
- Có kinh nghiệm chứng minh trong việc triển khai chiến lược dữ liệu, với nền tảng vững chắc về thiết kế và quản lý kho dữ liệu trên các nền tảng đám mây như Google Cloud Platform (GCP).
- Thành thạo trong việc sử dụng DBT (Data Build Tool), SQL, Python, Airflow và GitHub để chuyển đổi dữ liệu, tự động hóa và kiểm soát phiên bản trong môi trường đám mây.
- Thông thạo làm việc với BigQuery để lưu trữ, truy vấn và phân tích dữ liệu, bao gồm kiến thức về khả năng tích hợp với các nguồn dữ liệu bên ngoài.
- Kinh nghiệm tích hợp các nguồn dữ liệu đa dạng như Google Analytics, cơ sở dữ liệu giao dịch, máy chủ SFTP và các tập dữ liệu công cộng qua API và webhook.
- Kỹ năng kỹ thuật trong việc tối ưu hóa hiệu suất kho dữ liệu, giám sát chất lượng dữ liệu và triển khai giải pháp để giải quyết các vấn đề liên quan đến dữ liệu.
- Hiểu biết về các nguyên tắc quản trị dữ liệu, bao gồm phân loại dữ liệu, kiểm soát truy cập và tuân thủ các quy định về dữ liệu.
- Kỹ năng giao tiếp và hợp tác xuất sắc để làm việc với các nhóm liên chức năng, bao gồm kỹ sư dữ liệu, nhà phân tích và các bên liên quan kinh doanh.
- Khả năng ghi chép rõ ràng các quy trình làm việc với dữ liệu phức tạp và cấu hình hệ thống để tham khảo nhóm và mục đích kiểm toán.
- Khả năng giải quyết vấn đề tốt và chú ý đến chi tiết để đảm bảo kết quả xử lý dữ liệu chính xác và đáng tin cậy.
- Các bằng cấp ưu tiên bao gồm chứng chỉ về điện toán đám mây (ví dụ: Google Cloud Professional Data Engineer), kỹ thuật dữ liệu hoặc các lĩnh vực liên quan, cũng như kinh nghiệm phát triển đường ống dữ liệu và các công cụ phân tích dựa trên đám mây.
