ClickHouse в архитектуре Data Lakehouse
Cloud ClickHouse — это колоночная реляционная СУБД с открытым исходным кодом для быстрой обработки аналитических SQL-запросов на структурированных больших данных в режиме реального времени. Опционально включается в архитектуру DLH при необходимости выполнения оперативной аналитики реального времени на входящем потоке событий без необходимости сохранения данных в S3-хранилище.
Компонент выполняет следующие функции:
- Долговременное хранение данных в блочно-колоночном формате для выполнения BI-аналитики без запросов в основное хранилище DLH.
- Обработка сложных SQL-запросов на чтение для BI-аналитики с ускоренным полным сканированием.
- Поддержка OLTP- и OLAP-сценариев в рамках единой кластерной СУБД.
- Поддержка шардирования данных и горизонтального масштабирования до 100 серверов.
- Возможность прямого импорта данных и организации ETL- и ELT-процессов из реляционных СУБД источников данных.
- Непрерывный мониторинг для выполнения оперативной аналитики на потоке входящих событий из источников.
- Наличие ClickHouse в архитектуре увеличивает стоимость DLH, но в то же время позволяет запустить ряд бизнес-сценариев в реальном времени, без развертывания полного набора компонентов DLH, что сильно сокращает ресурсоемкость и T2M решения для крупных Enterprise-инсталляций.