Подключение Cloud Spark в качестве инструмента обработки данных

Включение в базовую структуру Data Lakehouse (DLH) сервиса Cloud Spark позволяет выполнять сложную трансформацию данных перед попаданием их в S3-объектное хранилище, в отличие от Cloud Trino, который может реализовывать относительно простые сценарии.

Для хранения оперативной информации может дополнительно использоваться аналитическая БД, например Cloud ClickHouse, хотя такая архитектура усложняет и увеличивает стоимость решения.

Подготовительные шаги

Разверните базовую архитектуру сервиса Data Lakehouse.

1. Разверните экземпляр сервиса Cloud Spark

Перейдите в личный кабинет VK Cloud.
Выберите проект, где нужно создать экземпляр сервиса.
Перейдите в раздел Data Platform → Экземпляры сервисов.
Нажмите кнопку Создать экземпляр.
На шаге Конфигурация:
1. Выберите тип сервиса Cloud Spark.
2. В поле Версия оставьте значение по умолчанию.
Нажмите кнопку Следующий шаг.
На шаге Параметры:
1. Задайте параметры экземпляра:
  - Название: укажите имя для экземпляра сервиса.
  - Описание: при необходимости добавьте описание.
  - Назначить внешний IP: включите опцию, чтобы экземпляр Cloud ClickHouse был доступен через интернет.
  - Кластер Kubernetes: выберите из выпадающего списка кластер, который указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
2. В поле Spark Connect задайте количество ядер процессора и объем оперативной памяти, которые необходимо выделить для обработки данных в режиме реального времени.
3. В поле Spark History Server задайте количество ядер процессора и объем оперативной памяти, которые необходимо выделить для логирования запуска задач (jobs) сервиса Cloud Spark.
Нажмите кнопку Следующий шаг.
На шаге Обслуживание:
1. Выберите дни недели и время начала проведения технических работ. В это время на сервере могут выполняться технические работы, в том числе создание резервных копий — сервис будет недоступен.
Нажмите кнопку Следующий шаг.
На шаге Настройки нажмите кнопку Редактировать и выберите версию Cloud Spark из списка поддерживаемых — она будет использоваться для запуска задач (jobs).
Нажмите кнопку Следующий шаг.
На шаге Подключения:
1. Добавьте подключние к PostgreSQL, созданной при развертывании базовой конфигурации Data Lakehouse:
  1. Нажмите кнопку Добавить подключение.
  2. Выберите подключение PostgreSQL и укажите:
    - PostgreSQL: придумайте название подключения, например: postgres_spark.
    - Имя базы данных: имя базы данных источника PostgreSQL, к которой Cloud Spark будет подключаться для выполнения запросов и интеграции данных, например: ad_db. Доступен на вкладке Список баз данных после создания инстанса PostgreSQL.
    - Имя хоста БД: значение в формате <IP-АДРЕС>:<ПОРТ>. Данные для подключения нужно скопировать на странице экземпляра PostgreSQL во вкладке Общая информация, из значения поля Postgres primary connection string: postgres://<user>:<password>@<IP-АДРЕС>:<ПОРТ>/<ИМЯ_БД>. Например: 10.0.1.2:5432.
    - Имя пользователя: логин для PostgreSQL, созданной при развертывании базовой конфигурации Data Lakehouse.
    - Пароль пользователя: пароль учетной записи пользователя базы данных, указанный при создании инстанса БД PostgreSQL.
2. Добавьте подключение к S3-объектному хранилищу, созданный при развертывании базовой конфигурации Data Lakehouse:
  1. Нажмите кнопку Добавить подключение.
  2. Выберите подключение S3 VK Cloud.
  3. Укажите параметры подключения:
    - Имя внутреннего подключения S3: придумайте название подключения, например: iceberg_s3.
    - Бакет: имя бакета, заданное при создании S3 VK Cloud.
    - Путь в бакете S3: адрес размещения файлов в S3-хранилище. Параметр доступен на странице экземпляра S3 VK Cloud.
Нажмите кнопку Следующий шаг.
На шаге Учетные данные:
1. В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud ClickHouse, он понадобится вам позже.
2. В поле Пароль нажмите кнопку Сгенерировать, чтобы сгенерировать пароль администратора. Сохраните пароль, он понадобится вам позже.
Нажмите кнопку Создать.

Дождитесь окончания процесса создания экземпляра сервиса Cloud Spark.

Была ли статья полезна?

Не нашли ответа?Напишите нам

Содержание
Подготовительные шаги
1. Разверните экземпляр сервиса Cloud Spark
Была ли статья полезна?