О сервисеBeta
Cloud Airflow — сервис от VK Cloud для программирования, планирования и мониторинга рабочих процессов (workflow) на основе платформы Apache Airflow и кластеров Kubernetes.
Рабочие процессы представляют собой последовательность задач, которые выполняются в определенном порядке по заданному расписанию или триггеру. Как правило, это задачи, реализующие ETL-процессы (Extract, Transform, Load). Такие задачи могут повторяться и состоять в сложной зависимости друг от друга, поэтому управление ими затруднено.
Сервис Cloud Airflow представляет рабочие процессы в виде направленных ациклических графов (DAG — Directed Acyclic Graph), в которых строго определены связи между задачами и последовательность их выполнения. В сервисе можно создавать и запускать задачи, управлять ими, отслеживать статус их выполнения, анализировать логи и возможные ошибки.
- Оркестрация ETL-процессов: автоматизация извлечения, преобразования и загрузки данных из разнородных источников в целевые хранилища.
- Управление data-пайплайнами: построение сложных цепочек обработки данных с контролем зависимостей и обработкой ошибок.
- Планирование задач: выполнение периодических операций (ежедневные отчеты, обновление витрин) по заданному расписанию.
- Машинное обучение: оркестрация процессов обучения и эксплуатации ML-моделей.
- Интеграции с внешними системами для передачи данных.
- Обработка событий: реакция на события в реальном времени (появление новых файлов, сообщений в очередях).