Описание вакансии
Мы ищем квалифицированного инженера по большим данным для проектирования, разработки и оптимизации процессов ETL, обеспечивая точность, полноту и своевременность данных. Роль предполагает сотрудничество с кросс-функциональными командами для внедрения эффективных решений по работе с данными и поддержки бизнес-потребностей.
Ключевые обязанности
- Проектирование, разработка и оптимизация процессов ETL для больших данных в соответствии с бизнес-требованиями
- Участие в проектировании архитектуры хранилища данных и разработка соответствующих решений ETL
- Разработка Spark-приложений для обработки больших объемов данных, включая очистку, преобразование и загрузку данных
- Оптимизация производительности Spark-заданий для повышения эффективности и снижения потребления ресурсов
- Написание Python-скриптов для сбора, предварительной обработки и мониторинга данных
- Интеграция Python-кода с Spark-приложениями для сложных рабочих процессов обработки данных
- Разработка в среде PySpark для использования комбинированных преимуществ Python и Spark
- Устранение технических проблем PySpark, включая преобразование типов данных и оптимизацию производительности
- Реализация стратегий мониторинга качества данных и проведение проверок качества ETL
- Создание механизмов отчетности о качестве данных и предоставление поддержки для принятия решений
- Сотрудничество с аналитиками данных, учеными по данным и инженерами хранилищ данных по проектам
- Участие в обмене техническими знаниями для повышения возможностей команды
Требования к кандидату
- Опыт проектирования и оптимизации процессов ETL для больших данных
- Навыки разработки Spark-приложений и настройки их производительности
- Профессиональное владение Python для задач обработки данных
- Практический опыт интеграции и разработки на PySpark
- Знание методологий и инструментов обеспечения качества данных
- Понимание принципов архитектуры хранилищ данных
- Способность устранять сложные проблемы обработки данных
- Отличные навыки сотрудничества и коммуникации
- Опыт работы в кросс-функциональных командах по работе с данными
- Настройка на постоянное обучение и готовность делиться знаниями
Предпочтительные квалификации
- Опыт работы с дополнительными технологиями больших данных (Hadoop, Hive и др.)
- Знание облачных платформ для работы с данными (AWS, Azure, GCP)
- Знакомство с инструментами визуализации и отчетности данных
- Понимание концепций и применений машинного обучения
- Предыдущий опыт внедрения фреймворков управления данными
