Cloud Trino в архитектуре Data Lakehouse

Cloud Trino – это массивно-параллельный аналитический SQL-движок для обработки больших объемов данных из разных источников. Он позволяет:

выполнять SQL-запросы на чтение параллельно из нескольких источников и хранилищ;
организовывать ETL- и ELT-пайплайны без использования специализированных сервисов в архитектуре DLH.

Cloud Trino позволяет переносить аналитическую нагрузку из дорогих в обслуживании и трудно масштабируемых корпоративных хранилищ (например, на базе Greenplum) в более дешевые озера данных и DLH.

В архитектуре Data Lakehouse компонент выполняет следующие функции:

Запрос данных из источников по PULL-модели (для простых сценариев).
Выполнение через API Apache Iceberg операций чтения и записи данных в объектном S3-хранилище.
Балансировка входящего потока SQL-запросов от источников и потребителей в DLH.
Публикация информации об источниках и структуре данных DLH во внешнем каталоге метаданных для управления данными и отслеживания их происхождения.
Предоставление данных по запросам внешних сервисов напрямую из S3-хранилища для формирования отчетов, BI-аналитики, машинного обучения.
Взаимодействие со специализированными аналитическими СУБД (например, ClickHouse, PostgreSQL) для выполнения аналитики реального времени.
Многофазная оптимизация плана запроса — формирование фиксированной последовательности действий при выполнении SQL-запроса:
- применение фильтров;
- выбор оптимального порядка с помощью JOIN;
- замена в запросе таблиц на представление (VIEW);
- выполнение операций трансформации данных.

Была ли статья полезна?

Не нашли ответа?Напишите нам

Была ли статья полезна?