О сервисеBeta

Cloud Airflow — сервис от VK Cloud для программирования, планирования и мониторинга рабочих процессов (workflow) на основе платформы Apache Airflow и кластеров Kubernetes.

Рабочие процессы представляют собой последовательность задач, которые выполняются в определенном порядке по заданному расписанию или триггеру. Как правило, это задачи, реализующие ETL-процессы (Extract, Transform, Load). Такие задачи могут повторяться и состоять в сложной зависимости друг от друга, поэтому управление ими затруднено.

Сервис Cloud Airflow представляет рабочие процессы в виде направленных ациклических графов (DAG — Directed Acyclic Graph), в которых строго определены связи между задачами и последовательность их выполнения. В сервисе можно создавать и запускать задачи, управлять ими, отслеживать статус их выполнения, анализировать логи и возможные ошибки.

Возможные сценарии использования сервиса

  • Оркестрация ETL-процессов: автоматизация извлечения, преобразования и загрузки данных из разнородных источников в целевые хранилища.
  • Управление data-пайплайнами: построение сложных цепочек обработки данных с контролем зависимостей и обработкой ошибок.
  • Планирование задач: выполнение периодических операций (ежедневные отчеты, обновление витрин) по заданному расписанию.
  • Машинное обучение: оркестрация процессов обучения и эксплуатации ML-моделей.
  • Интеграции с внешними системами для передачи данных.
  • Обработка событий: реакция на события в реальном времени (появление новых файлов, сообщений в очередях).