Подключение ClickHouse в качестве аналитической БД
Добавление в архитектуру Data Lakehouse (DLH) отдельной аналитической БД позволяет выполнять быструю обработку входящего потока событий без необходимости сохранения данных в S3-хранилище. Такой БД может быть PostgreSQL, где оперативные данные поступают в виде потока сообщений или батчами, или Cloud ClickHouse.
Далее будет рассмотрен вариант конфигурации сервиса Data Lakehouse с аналитической базы данных на базе продукта ClickHouse.
Запросы данных в аналитическую БД выполняет сервис Cloud Trino, поэтому развертывание конфигурации Data Lakehouse с аналитической БД включает предварительное развертывание базовой архитектуры сервиса, а также дополнительное подключение используемого экземпляра сервиса Cloud Trino к аналитической БД.
Разверните базовую архитектуру сервиса Data Lakehouse.
-
Перейдите в раздел Data Platform → Экземпляры сервисов.
-
Нажмите кнопку Создать экземпляр.
-
На шаге Конфигурация:
- Выберите тип сервиса
Cloud ClickHouse. - В поле Версия оставьте значение по умолчанию.
- Выберите конфигурацию
Кластер.
- Выберите тип сервиса
-
Нажмите кнопку Следующий шаг.
-
На шаге Параметры:
-
Задайте параметры экземпляра:
- Название: укажите имя для экземпляра сервиса.
- Описание: при необходимости добавьте описание.
- Название базы данных: укажите имя базы данных, к которой Cloud ClickHouse будет подключаться.
- Назначить внешний IP: включите опцию, чтобы экземпляр Cloud ClickHouse был доступен через интернет.
- Кластер Kubernetes: выберите из выпадающего списка кластер, который указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
-
Выберите конфигурацию кластера
Базоваяи укажите один из шаблонов конфигурации:Малый с репликацией– подходит для тестовой конфигурации.Средний с репликацией– для PROD-кластера низкой нагрузки.2-шардовый с репликацией– для PROD-кластера средней нагрузки.3-шардовый с репликацией– для PROD-кластера высокой нагрузки.
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Обслуживание:
-
Выберите дни недели и время начала технических работ с учетом указанной в блоке временной зоны.
Длительность проведения технических работ, в том числе резервного копирования — 4 часа. В это время сервис может быть недоступен.
-
Задайте максимальное количество полных копий. Это число зависит от требований к глубине архивного хранения данных или может быть продиктовано требованиями регулятора. При превышении максимального количества старые копии будут перезаписываться.
Полная резервная копия включает в себя файлы, базы данных, настройки и конфигурации, необходимые для восстановления системы в случае ее сбоя, потери данных или других проблем.
-
Задайте расписание запуска инкрементального копирования в формате crontab или выберите уже созданное из списка.
Инкрементальная резервная копия содержит только данные, которые изменились с предыдущего запуска резервного копирования (полного или инкрементального). Такая копия меньше по размеру, чем полная.
-
Задайте максимальное количество инкрементальных копий. При превышении максимального количества старые копии будут перезаписываться.
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Учетные данные:
-
В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud ClickHouse, он понадобится вам позже.
-
В поле Пароль нажмите кнопку Сгенерировать, чтобы сгенерировать пароль администратора. Сохраните пароль, он понадобится вам позже
-
-
Нажмите кнопку Создать.
Дождитесь завершения операции создания экземпляра сервиса Cloud ClickHouse.
Добавьте новое подключение для источника Clickhouse в настройках экземпляра сервиса Cloud Trino, который был создан при развертывании базовой конфигурации. В параметрах подключения укажите данные экземпляра сервиса Cloud ClickHouse, созданного выше.