Cloud Airflow в архитектуре Data Lakehouse

Cloud Airflow – это оркестратор потоков данных и инструмент управления запуском процессов ETL и ELT для высокопроизводительных, масштабируемых приложений реального времени. Опционально включается в архитектуру DLH при необходимости интеграции хранилища с источниками данных по PULL-модели.

Компонент выполняет следующие функции:

  • Управление запуском ETL- и ELT-процессов в DLH.
  • Интеграция источников неструктурированных данных напрямую с S3-хранилищем в режиме файлового обмена.
  • Создание графика выполнения периодических операций IN или OUT.
  • Мониторинг выполнения ETL- и ELT-процессов и рассылка диагностических сообщений.
  • Чтение данных из S3-хранилища через API компонента Cloud Apache Iceberg.