직무 설명
우리는 데이터의 정확성, 완전성 및 적시성을 보장하면서 ETL 프로세스를 설계, 개발 및 최적화할 숙련된 빅데이터 엔지니어를 찾고 있습니다. 이 역할은 효율적인 데이터 솔루션을 구현하고 비즈니스 요구를 지원하기 위해 크로스 기능 팀과 협력하는 것을 포함합니다.
주요 책임
- 비즈니스 요구 사항을 충족하기 위해 빅데이터 ETL 프로세스 설계, 개발 및 최적화
- 데이터 웨어하우스 아키텍처 설계에 참여하고 적절한 ETL 솔루션 개발
- 데이터 클렌징, 변환 및 로딩을 포함한 대규모 데이터 처리를 위한 Spark 애플리케이션 개발
- 효율성 향상 및 리소스 소비 감소를 위한 Spark 작업 성능 최적화
- 데이터 수집, 전처리 및 모니터링 작업을 위한 Python 스크립트 작성
- 복잡한 데이터 워크플로우를 위해 Python 코드를 Spark 애플리케이션과 통합
- Python과 Spark의 결합된 장점을 활용하기 위해 PySpark 환경에서 개발
- 데이터 유형 변환 및 성능 최적화를 포함한 PySpark 기술 문제 해결
- 데이터 품질 모니터링 전략 구현 및 ETL 품질 검사 수행
- 데이터 품질 보고 메커니즘 수립 및 의사 결정 지원 제공
- 데이터 분석가, 과학자 및 웨어하우스 엔지니어와 프로젝트 협력
- 팀 역량 향상을 위한 기술 지식 공유 참여
직무 요구 사항
- 빅데이터 ETL 프로세스 설계 및 최적화에 대한 강력한 경험
- Spark 애플리케이션 개발 및 성능 튜닝에 능숙
- 데이터 처리 작업을 위한 Python 프로그래밍 전문 지식
- PySpark 통합 및 개발에 대한 실무 경험
- 데이터 품질 보증 방법론 및 도구에 대한 지식
- 데이터 웨어하우스 아키텍처 원칙 이해
- 복잡한 데이터 처리 문제 해결 능력
- 탁월한 협업 및 커뮤니케이션 기술
- 크로스 기능 데이터 팀에서의 작업 경험
- 지속적인 학습 마인드셋 및 지식 공유 태도
우대 사항
- 추가 빅데이터 기술(Hadoop, Hive 등) 경험
- 클라우드 기반 데이터 플랫폼(AWS, Azure, GCP)에 대한 지식
- 데이터 시각화 및 보고 도구에 대한 친숙함
- 머신 러닝 개념 및 응용에 대한 이해
- 데이터 거버넌스 프레임워크 구현 이전 경험