Описание вакансии
Основные обязанности
- Проектирование и реализация масштабного обучения моделей с использованием распределенных фреймворков глубокого обучения, таких как PyTorch, TensorFlow, Ray и др.
- Управление и оптимизация процессов обучения и вывода моделей для обеспечения высокой производительности и эффективности.
- Контейнеризация приложений глубокого обучения с использованием Docker и их оркестрация с помощью Kubernetes и Kubeflow.
- Развертывание и управление рабочими нагрузками глубокого обучения на основных облачных платформах, включая AWS, Google Cloud и Azure.
- Применение методов сжатия моделей и ускорения вывода для оптимизации производительности.
- Реализация техник потокового и пакетного вывода данных для обработки в реальном времени.
- Сотрудничество с межфункциональными командами для разработки и реализации технических стратегий распределенных вычислений и решений глубокого обучения.
Требования к кандидату
- Значительный опыт работы с фреймворками глубокого обучения (PyTorch, TensorFlow и др.) и обучением/оптимизацией моделей.
- Глубокие знания в области контейнеризации (Docker) и техник оркестрации (Kubernetes, Kubeflow).
- Подтвержденный опыт работы с облачными платформами (AWS, Google Cloud, Azure).
- Желателен опыт программирования на CUDA и оптимизации многопроцессорных GPU-коммуникаций.
- Знание техник обработки потоковых и пакетных данных.
- Способность работать в команде и вносить вклад в разработку технических стратегий.
- Сильные навыки решения проблем и способность работать над передовыми проектами в области ИИ/МО.
Предпочтительные квалификации
- Опыт работы с Ray или другими фреймворками распределенных вычислений.
- Опыт работы с децентрализованными системами ИИ/МО.
- Публикации или вклад в open-source проекты в соответствующих областях.
