Cloud Airflow в архитектуре Data Lakehouse
Cloud Airflow – это оркестратор потоков данных и инструмент управления запуском процессов ETL и ELT для высокопроизводительных, масштабируемых приложений реального времени. Опционально включается в архитектуру DLH при необходимости интеграции хранилища с источниками данных по PULL-модели.
Компонент выполняет следующие функции:
- Управление запуском ETL- и ELT-процессов в DLH.
- Интеграция источников неструктурированных данных напрямую с S3-хранилищем в режиме файлового обмена.
- Создание графика выполнения периодических операций IN или OUT.
- Мониторинг выполнения ETL- и ELT-процессов и рассылка диагностических сообщений.
- Чтение данных из S3-хранилища через API компонента Cloud Apache Iceberg.