Подключение Cloud Spark в качестве инструмента обработки данных
Включение в базовую структуру Data Lakehouse (DLH) сервиса Cloud Spark позволяет выполнять сложную трансформацию данных перед попаданием их в S3-объектное хранилище, в отличие от Cloud Trino, который может реализовывать относительно простые сценарии.
Для хранения оперативной информации может дополнительно использоваться аналитическая БД, например Cloud ClickHouse, хотя такая архитектура усложняет и увеличивает стоимость решения.
Разверните базовую архитектуру сервиса Data Lakehouse.
-
Перейдите в личный кабинет VK Cloud.
-
Выберите проект, где нужно создать экземпляр сервиса.
-
Перейдите в раздел Data Platform → Экземпляры сервисов.
-
Нажмите кнопку Создать экземпляр.
-
На шаге Конфигурация:
- Выберите тип сервиса
Cloud Spark. - В поле Версия оставьте значение по умолчанию.
- Выберите тип сервиса
-
Нажмите кнопку Следующий шаг.
-
На шаге Параметры:
-
Задайте параметры экземпляра:
- Название: укажите имя для экземпляра сервиса.
- Описание: при необходимости добавьте описание.
- Назначить внешний IP: включите опцию, чтобы экземпляр Cloud ClickHouse был доступен через интернет.
- Кластер Kubernetes: выберите из выпадающего списка кластер, который указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
-
В поле Spark Connect задайте количество ядер процессора и объем оперативной памяти, которые необходимо выделить для обработки данных в режиме реального времени.
-
В поле Spark History Server задайте количество ядер процессора и объем оперативной памяти, которые необходимо выделить для логирования запуска задач (jobs) сервиса Cloud Spark.
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Обслуживание:
- Выберите дни недели и время начала проведения технических работ. В это время на сервере могут выполняться технические работы, в том числе создание резервных копий — сервис будет недоступен.
-
Нажмите кнопку Следующий шаг.
-
На шаге Настройки нажмите кнопку Редактировать и выберите версию Cloud Spark из списка поддерживаемых — она будет использоваться для запуска задач (jobs).
-
Нажмите кнопку Следующий шаг.
-
На шаге Подключения:
-
Добавьте подключние к PostgreSQL, созданной при развертывании базовой конфигурации Data Lakehouse:
-
Нажмите кнопку Добавить подключение.
-
Выберите подключение PostgreSQL и укажите:
- PostgreSQL: придумайте название подключения, например:
postgres_spark. - Имя базы данных: имя базы данных источника PostgreSQL, к которой Cloud Spark будет подключаться для выполнения запросов и интеграции данных, например:
ad_db. Доступен на вкладке Список баз данных после создания инстанса PostgreSQL. - Имя хоста БД: значение в формате
<IP-АДРЕС>:<ПОРТ>. Данные для подключения нужно скопировать на странице экземпляра PostgreSQL во вкладке Общая информация, из значения поля Postgres primary connection string:postgres://<user>:<password>@<IP-АДРЕС>:<ПОРТ>/<ИМЯ_БД>. Например:10.0.1.2:5432. - Имя пользователя: логин для PostgreSQL, созданной при развертывании базовой конфигурации Data Lakehouse.
- Пароль пользователя: пароль учетной записи пользователя базы данных, указанный при создании инстанса БД PostgreSQL.
- PostgreSQL: придумайте название подключения, например:
-
-
Добавьте подключение к S3-объектному хранилищу, созданный при развертывании базовой конфигурации Data Lakehouse:
-
Нажмите кнопку Добавить подключение.
-
Выберите подключение
S3 VK Cloud. -
Укажите параметры подключения:
- Имя внутреннего подключения S3: придумайте название подключения, например:
iceberg_s3. - Бакет: имя бакета, заданное при создании S3 VK Cloud.
- Путь в бакете S3: адрес размещения файлов в S3-хранилище. Параметр доступен на странице экземпляра S3 VK Cloud.
- Имя внутреннего подключения S3: придумайте название подключения, например:
-
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Учетные данные:
-
В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud ClickHouse, он понадобится вам позже.
-
В поле Пароль нажмите кнопку Сгенерировать, чтобы сгенерировать пароль администратора. Сохраните пароль, он понадобится вам позже.
-
-
Нажмите кнопку Создать.
Дождитесь окончания процесса создания экземпляра сервиса Cloud Spark.