ClickHouse в архитектуре Data Lakehouse

Cloud ClickHouse — это колоночная реляционная СУБД с открытым исходным кодом для быстрой обработки аналитических SQL-запросов на структурированных больших данных в режиме реального времени. Опционально включается в архитектуру DLH при необходимости выполнения оперативной аналитики реального времени на входящем потоке событий без необходимости сохранения данных в S3-хранилище.

Компонент выполняет следующие функции:

  • Долговременное хранение данных в блочно-колоночном формате для выполнения BI-аналитики без запросов в основное хранилище DLH.
  • Обработка сложных SQL-запросов на чтение для BI-аналитики с ускоренным полным сканированием.
  • Поддержка OLTP- и OLAP-сценариев в рамках единой кластерной СУБД.
  • Поддержка шардирования данных и горизонтального масштабирования до 100 серверов.
  • Возможность прямого импорта данных и организации ETL- и ELT-процессов из реляционных СУБД источников данных.
  • Непрерывный мониторинг для выполнения оперативной аналитики на потоке входящих событий из источников.
  • Наличие ClickHouse в архитектуре увеличивает стоимость DLH, но в то же время позволяет запустить ряд бизнес-сценариев в реальном времени, без развертывания полного набора компонентов DLH, что сильно сокращает ресурсоемкость и T2M решения для крупных Enterprise-инсталляций.