Описание должности
1. Ответственность за построение сквозной архитектуры данных компании, включая как оффлайн-пакетную, так и потоковую обработку в реальном времени.
2. Создание и поддержка процессов ETL/ELT для сбора, синхронизации, очистки и преобразования данных, обеспечивая точный и эффективный поток данных в систему.
3. Реализация сбора, очистки, агрегации и расчета метрик данных в реальном времени с использованием Flink для гарантии своевременности и точности данных.
4. Проектирование и внедрение многоуровневой архитектуры хранилища данных, включая моделирование данных, проектирование измерений и унифицированные определения метрик для создания повторно используемой и поддерживаемой основы данных.
5. Разработка интерфейсов данных, отчетов и базовых сервисов данных для поддержки аналитических, управленческих и операционных потребностей бизнес-подразделений (операции, продажи, продукт).
6. Мониторинг качества данных, устранение проблем и оптимизация процессов для обеспечения точности, полноты и своевременности данных при установлении базовых стандартов управления данными.
7. Быстрое реагирование на запросы бизнеса по данным, оптимизация существующих рабочих процессов данных и заданий SQL/скриптов для улучшения производительности как пакетной, так и потоковой обработки при снижении затрат на обслуживание.
Ключевые обязанности
- Проектирование и поддержка масштабируемой инфраструктуры данных для исторического анализа и анализа в реальном времени
- Разработка надежных конвейеров данных с надлежащими механизмами обработки ошибок и мониторинга
- Сотрудничество с кросс-функциональными командами для понимания требований к данным и предоставления решений
- Документирование процессов, моделей и стандартов данных для обмена знаниями
- Постоянная оценка и внедрение новых технологий для расширения возможностей работы с данными
Требования к должности
- Степень бакалавра или выше в области компьютерных наук, математики или смежной области с 5+ годами опыта в разработке и работе с хранилищами данных
- Экспертные знания SQL, включая сложные запросы и хранимые процедуры в MySQL, Hive, Paimon, HBase
- Владение Java/Python для написания ETL-скриптов и разработки заданий обработки данных
- Практический опыт работы с Spark, Flink, Kafka для синхронизации данных и оптимизации обработки
- Сильные навыки моделирования хранилищ данных с пониманием принципов проектирования
- Отличные способности к решению проблем для устранения аномалий данных и проблем с производительностью
- Предпочтителен опыт работы как в стартапах, так и в устоявшихся компаниях, с адаптивностью к многопрофильным обязанностям
- Знание облачных платформ данных Alibaba (MaxCompute, DataWorks и др.) будет плюсом
- Предпочтителен опыт в финансовой, торговой или платежной сферах с соответствующими сценариями работы с данными
Преимущества
Возможность удаленной работы | Минимум 10 дней оплачиваемого отпуска | 5 дней оплачиваемого больничного | Позитивная рабочая среда
Обязательное требование: диплом университета из списка "Проект 211" или "Двойного первоклассного" плана