Подключение ClickHouse в качестве аналитической БД

Добавление в архитектуру Data Lakehouse (DLH) отдельной аналитической БД позволяет выполнять быструю обработку входящего потока событий без необходимости сохранения данных в S3-хранилище. Такой БД может быть PostgreSQL, где оперативные данные поступают в виде потока сообщений или батчами, или Cloud ClickHouse.

Далее будет рассмотрен вариант конфигурации сервиса Data Lakehouse с аналитической базы данных на базе продукта ClickHouse.

Запросы данных в аналитическую БД выполняет сервис Cloud Trino, поэтому развертывание конфигурации Data Lakehouse с аналитической БД включает предварительное развертывание базовой архитектуры сервиса, а также дополнительное подключение используемого экземпляра сервиса Cloud Trino к аналитической БД.

Подготовительные шаги

Разверните базовую архитектуру сервиса Data Lakehouse.

1. Разверните экземпляр сервиса ClickHouse

  1. Перейдите в раздел Data Platform → Экземпляры сервисов.

  2. Нажмите кнопку Создать экземпляр.

  3. На шаге Конфигурация:

    1. Выберите тип сервиса Cloud ClickHouse.
    2. В поле Версия оставьте значение по умолчанию.
    3. Выберите конфигурацию Кластер.
  4. Нажмите кнопку Следующий шаг.

  5. На шаге Параметры:

    1. Задайте параметры экземпляра:

      • Название: укажите имя для экземпляра сервиса.
      • Описание: при необходимости добавьте описание.
      • Название базы данных: укажите имя базы данных, к которой Cloud ClickHouse будет подключаться.
      • Назначить внешний IP: включите опцию, чтобы экземпляр Cloud ClickHouse был доступен через интернет.
      • Кластер Kubernetes: выберите из выпадающего списка кластер, который указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
    2. Выберите конфигурацию кластера Базовая и укажите один из шаблонов конфигурации:

      • Малый с репликацией – подходит для тестовой конфигурации.
      • Средний с репликацией – для PROD-кластера низкой нагрузки.
      • 2-шардовый с репликацией – для PROD-кластера средней нагрузки.
      • 3-шардовый с репликацией – для PROD-кластера высокой нагрузки.
  6. Нажмите кнопку Следующий шаг.

  7. На шаге Обслуживание:

    1. Выберите дни недели и время начала технических работ с учетом указанной в блоке временной зоны.

      Длительность проведения технических работ, в том числе резервного копирования — 4 часа. В это время сервис может быть недоступен.

    2. Задайте максимальное количество полных копий. Это число зависит от требований к глубине архивного хранения данных или может быть продиктовано требованиями регулятора. При превышении максимального количества старые копии будут перезаписываться.

      Полная резервная копия включает в себя файлы, базы данных, настройки и конфигурации, необходимые для восстановления системы в случае ее сбоя, потери данных или других проблем.

    3. Задайте расписание запуска инкрементального копирования в формате crontab или выберите уже созданное из списка.

      Инкрементальная резервная копия содержит только данные, которые изменились с предыдущего запуска резервного копирования (полного или инкрементального). Такая копия меньше по размеру, чем полная.

    4. Задайте максимальное количество инкрементальных копий. При превышении максимального количества старые копии будут перезаписываться.

  8. Нажмите кнопку Следующий шаг.

  9. На шаге Учетные данные:

    1. В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud ClickHouse, он понадобится вам позже.

    2. В поле Пароль нажмите кнопку Сгенерировать, чтобы сгенерировать пароль администратора. Сохраните пароль, он понадобится вам позже

  10. Нажмите кнопку Создать.

Дождитесь завершения операции создания экземпляра сервиса Cloud ClickHouse.

2. Настройте подключение к Cloud ClickHouse в Cloud Trino

Добавьте новое подключение для источника Clickhouse в настройках экземпляра сервиса Cloud Trino, который был создан при развертывании базовой конфигурации. В параметрах подключения укажите данные экземпляра сервиса Cloud ClickHouse, созданного выше.