Описание вакансии
Мы ищем опытного специалиста по парсингу данных для присоединения к нашей команде. Идеальный кандидат будет отвечать за разработку и поддержку веб-краулеров для сбора данных из различных источников, обеспечивая высокое качество извлечения и хранения данных.
Ключевые обязанности
- Ответственность за парсинг данных, включая статические веб-страницы, динамические веб-страницы (JS-рендеринг), данные API-интерфейсов и т.д.
- Обработка антипарсинговых стратегий, таких как подмена User Agent, пулы прокси, обход капчи, шифрование cookie, шифрование параметров body и т.д., для повышения успешности парсинга.
- Анализ данных веб-страниц и извлечение информации с использованием техник, таких как XPath, CSS-селекторы, регулярные выражения и т.д.
- Сохранение и парсинг данных в базы данных, такие как MySQL, MongoDB, Redis, Selectdb и т.д.
- Написание кода для очистки и дедупликации данных с целью повышения их качества.
- Мониторинг рабочего состояния краулеров, оптимизация стратегий парсинга и обеспечение стабильности сбора данных.
Требования к кандидату
- Подтвержденный опыт работы с веб-скрапингом и техниками парсинга данных.
- Глубокие знания по обработке антипарсинговых механизмов и стратегий.
- Владение техниками извлечения данных, такими как XPath, CSS-селекторы и регулярные выражения.
- Опыт работы с различными базами данных, такими как MySQL, MongoDB, Redis или Selectdb.
- Способность писать эффективные скрипты для очистки и дедупликации данных.
- Хорошие навыки решения проблем и внимание к деталям.
- Опыт мониторинга и оптимизации производительности краулеров будет преимуществом.
