Подключение Cloud Spark в качестве инструмента обработки данных

Включение в базовую структуру Data Lakehouse (DLH) сервиса Cloud Spark позволяет выполнять сложную трансформацию данных перед попаданием их в S3-объектное хранилище, в отличие от Cloud Trino, который может реализовывать относительно простые сценарии.

Для хранения оперативной информации может дополнительно использоваться аналитическая БД, например Cloud ClickHouse, хотя такая архитектура усложняет и увеличивает стоимость решения.

Подготовительные шаги

Разверните базовую архитектуру сервиса Data Lakehouse.

1. Разверните экземпляр сервиса Cloud Spark

  1. Перейдите в личный кабинет VK Cloud.

  2. Выберите проект, где нужно создать экземпляр сервиса.

  3. Перейдите в раздел Data Platform → Экземпляры сервисов.

  4. Нажмите кнопку Создать экземпляр.

  5. На шаге Конфигурация:

    1. Выберите тип сервиса Cloud Spark.
    2. В поле Версия оставьте значение по умолчанию.
  6. Нажмите кнопку Следующий шаг.

  7. На шаге Параметры:

    1. Задайте параметры экземпляра:

      • Название: укажите имя для экземпляра сервиса.
      • Описание: при необходимости добавьте описание.
      • Назначить внешний IP: включите опцию, чтобы экземпляр Cloud ClickHouse был доступен через интернет.
      • Кластер Kubernetes: выберите из выпадающего списка кластер, который указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
    2. В поле Spark Connect задайте количество ядер процессора и объем оперативной памяти, которые необходимо выделить для обработки данных в режиме реального времени.

    3. В поле Spark History Server задайте количество ядер процессора и объем оперативной памяти, которые необходимо выделить для логирования запуска задач (jobs) сервиса Cloud Spark.

  8. Нажмите кнопку Следующий шаг.

  9. На шаге Обслуживание:

    1. Выберите дни недели и время начала проведения технических работ. В это время на сервере могут выполняться технические работы, в том числе создание резервных копий — сервис будет недоступен.
  10. Нажмите кнопку Следующий шаг.

  11. На шаге Настройки нажмите кнопку Редактировать и выберите версию Cloud Spark из списка поддерживаемых — она будет использоваться для запуска задач (jobs).

  12. Нажмите кнопку Следующий шаг.

  13. На шаге Подключения:

    1. Добавьте подключние к PostgreSQL, созданной при развертывании базовой конфигурации Data Lakehouse:

      1. Нажмите кнопку Добавить подключение.

      2. Выберите подключение PostgreSQL и укажите:

        • PostgreSQL: придумайте название подключения, например: postgres_spark.
        • Имя базы данных: имя базы данных источника PostgreSQL, к которой Cloud Spark будет подключаться для выполнения запросов и интеграции данных, например: ad_db. Доступен на вкладке Список баз данных после создания инстанса PostgreSQL.
        • Имя хоста БД: значение в формате <IP-АДРЕС>:<ПОРТ>. Данные для подключения нужно скопировать на странице экземпляра PostgreSQL во вкладке Общая информация, из значения поля Postgres primary connection string: postgres://<user>:<password>@<IP-АДРЕС>:<ПОРТ>/<ИМЯ_БД>. Например: 10.0.1.2:5432.
        • Имя пользователя: логин для PostgreSQL, созданной при развертывании базовой конфигурации Data Lakehouse.
        • Пароль пользователя: пароль учетной записи пользователя базы данных, указанный при создании инстанса БД PostgreSQL.
    2. Добавьте подключение к S3-объектному хранилищу, созданный при развертывании базовой конфигурации Data Lakehouse:

      1. Нажмите кнопку Добавить подключение.

      2. Выберите подключение S3 VK Cloud.

      3. Укажите параметры подключения:

        • Имя внутреннего подключения S3: придумайте название подключения, например: iceberg_s3.
        • Бакет: имя бакета, заданное при создании S3 VK Cloud.
        • Путь в бакете S3: адрес размещения файлов в S3-хранилище. Параметр доступен на странице экземпляра S3 VK Cloud.
  14. Нажмите кнопку Следующий шаг.

  15. На шаге Учетные данные:

    1. В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud ClickHouse, он понадобится вам позже.

    2. В поле Пароль нажмите кнопку Сгенерировать, чтобы сгенерировать пароль администратора. Сохраните пароль, он понадобится вам позже.

  16. Нажмите кнопку Создать.

Дождитесь окончания процесса создания экземпляра сервиса Cloud Spark.