Быстрый старт
Быстрый старт включает базовый сценарий развертывания сервиса Data Lakehouse (DLH) на основе трех компонентов:
-
VK Object Storage — S3-хранилище, которое используется в качестве недорогого бесконечно расширяемого хранилища неструктурированных данных, получаемых из различных БД, например PostgreSQL.
-
Cloud Iceberg Metastore — используется для организации каталога метаданных на базе Apache Iceberg. Обеспечивает согласованность операций между различными компонентами сервиса DLH.
-
Cloud Trino — в связке с Cloud Iceberg Metastore обеспечивает клиентам привычный SQL-интерфейс для выполнения следующих операций:
- перенос данных (ETL);
- манипуляции с захваченными данными (ELT);
- комбинирование данных из разных источников (Data Mesh);
- прочие операции с каталогом и данными.
Пройдя все шаги быстрого старта, вы:
- Создадите экземпляры сервисов Cloud Iceberg Metastore и Cloud Trino.
- Создадите инстанс БД PostgreSQL и настроите подключение к нему в Cloud Trino.
Бакет S3-хранилища будет создан автоматически при настройке подключений для экземпляра сервиса Cloud Trino.
-
Перейдите в раздел Data Platform → Экземпляры сервисов.
-
Нажмите кнопку Создать экземпляр.
-
На шаге Конфигурация:
- Выберите тип сервиса
Cloud Iceberg Metastore. - В поле Версия оставьте значение по умолчанию.
- Выберите конфигурацию
Кластер.
- Выберите тип сервиса
-
Нажмите кнопку Следующий шаг.
-
На шаге Параметры:
- Запишите имя базы данных, сгенерированное автоматически. Оно понадобится для подключения к Cloud Trino.
- Включите опцию Назначить внешний IP.
- Выберите пункт Создать новый кластер.
- Выберите одну из доступных сетей в списке или создайте новую, нажав Создать новую сеть. При создании новой подсети укажите SDN и адрес подсети.
- Выберите зону доступности, например:
Москва (ME1). - Выберите вариант настройки
Базовая, шаблон кластераМалый.
-
Нажмите кнопку Следующий шаг.
-
На шаге Обслуживание:
-
Выберите дни недели и время начала проведения технических работ. В это время на сервере могут выполняться технические работы, в том числе создание резервных копий — сервис может быть временно недоступен.
-
Для остальных полей оставьте значения по умолчанию.
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Учетные данные:
-
В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud Iceberg Metastore, он понадобится вам позже.
-
В поле Пароль нажмите кнопку Сгенерировать, чтобы создать пароль администратора. Сохраните пароль, он понадобится вам позже.
-
-
Нажмите кнопку Создать.
Дождитесь окончания процесса создания экземпляра сервиса Cloud Iceberg Metastore.
БД PostgreSQL в базовой конфигурации сервиса DLH выступает в качестве внешнего источника данных. Чтобы развернуть инстанс PostgreSQL:
-
Перейдите в раздел Базы данных → Инстансы баз данных.
-
Если в выбранном проекте нет ни одного инстанса БД, нажмите кнопку Создать базу данных.
Иначе нажмите кнопку Добавить.
-
На шаге Конфигурация:
- Выберите тип базы данных
PostgreSQL. - В поле Версия оставьте значение по умолчанию.
- Выберите конфигурацию
Single.
- Выберите тип базы данных
-
Нажмите кнопку Следующий шаг.
-
На шаге Создание инстанса задайте:
-
Тип виртуальной машины:
STD3-2-8. -
Зону доступности:
Москва (ME1). -
Тип диска:
SSD. -
Размер диска, GB:
10. -
Включить автомасштабирование диска: убедитесь, что эта опция не выбрана.
-
Сеть: выберите сеть, которую указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
-
Назначить внешний IP: убедитесь, что эта опция включена.
-
Настройки Firewall: выберите
sshиз выпадающего списка.Итоговый список групп безопасности должен иметь вид:
default,ssh. -
Создать реплику: убедитесь, что эта опция не выбрана.
-
Ключ для доступа по SSH:
Создать новый ключ. -
Резервное копирование:
Отключено.
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Инициализация задайте:
- Тип создания:
Новая база данных. - Имя пользователя: оставьте значение по умолчанию или придумайте свое, например:
tsuser1. - Пароль пользователя: сгенерируйте пароль.
Сохраните полученные значения логина и пароля. Они понадобятся вам позже.
Имя базы данных для создания будет сгенерировано автоматически.
- Тип создания:
-
Нажмите кнопку Создать базу данных.
Дождитесь завершения создания инстанса БД.
Cloud Trino используется в качестве горизонтально масштабируемого движка SQL-запросов к внешнему источнику (PostgreSQL).
Чтобы развернуть экземпляр сервиса Cloud Trino и настроить для него подключения к PostgreSQL:
-
Перейдите в раздел Data Platform → Экземпляры сервисов.
-
Нажмите кнопку Создать экземпляр.
-
На шаге Конфигурация:
- Выберите тип сервиса
Cloud Trino. - В поле Версия оставьте значение по умолчанию.
- Выберите конфигурацию
Single.
- Выберите тип сервиса
-
Нажмите кнопку Следующий шаг.
-
На шаге Параметры:
- В поле Название экземпляра задайте имя экземпляра или используйте значение по умолчанию.
- Включите опцию Назначить внешний IP.
- Выберите кластер, который указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
- Выберите вариант настройки
Базовая, шаблон кластераМалый. - Нажмите кнопку Следующий шаг.
-
На шаге Обслуживание:
-
Техническое окно: оставьте значение по умолчанию. В это время на сервере могут выполняться технические работы, в том числе создание резервных копий — сервис может быть временно недоступен.
-
Для остальных полей оставьте значения по умолчанию.
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Подключения:
-
Добавьте к экземпляру сервиса Cloud Trino источник данных PostgreSQL:
-
Нажмите кнопку Добавить подключение.
-
Выберите тип подключение
PostgreSQLи укажите:- Название: придумайте название подключения, например:
postgres_trino. - Название базы данных: имя базы данных внутри инстанса, например:
ad_db. Доступен на вкладке Список баз данных после создания инстанса PostgreSQL. - hostname: адрес подключения к созданному инстансу PostgreSQL в формате:
<IP-АДРЕС>:<ПОРТ>. Например10.0.1.2:5432. Адрес подключения к БД можно посмотреть в карточке инстанса.
- Название: придумайте название подключения, например:
-
Логин: значение, указанное при создании инстанса БД PostgreSQL. В этом примере:
tsuser1. -
Пароль: пароль учетной записи пользователя базы данных, указанный при создании инстанса БД PostgreSQL.
-
-
Добавьте к экземпляру сервиса Cloud Trino источник данных Apache Iceberg с S3 VK Cloud:
-
Нажмите кнопку Добавить подключение.
-
Выберите подключение
Apache Iceberg с S3 VK Cloud. -
Укажите параметры подключения:
- Название: придумайте название подключения, например:
iceberg_s3. - hostname сервиса Iceberg Metastore: адрес подключения к созданному инстансу Iceberg Metastore в формате
<IP-АДРЕС>:<ПОРТ>. Адрес сервиса Iceberg Metastore можно посмотреть в карточке инстанса на вкладке Общая информация в поле Postgres primary connection string. - Логин сервиса Iceberg Metastore: логин администратора, указанный при создании экземпляра сервиса Iceberg Metastore на этапе развертывания базовой конфигурации. В этом примере:
vkdata. - Пароль сервиса Iceberg Metastore: пароль учетной записи пользователя базы данных, указанный при создании инстанса Iceberg Metastore.
- Bucket: задайте имя бакета для создания S3-объектного хранилища, следуя правилам именования бакетов.
- Название: придумайте название подключения, например:
-
-
-
Нажмите кнопку Следующий шаг.
-
На шаге Учетные данные:
-
В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud Trino, он понадобится вам позже.
-
В поле Пароль нажмите кнопку Сгенерировать, чтобы сгенерировать пароль администратора. Сохраните пароль, он понадобится вам позже.
-
-
Нажмите кнопку Создать.
Дождитесь окончания процесса создания экземпляра сервиса Cloud Trino.
После развертывания сервиса Trino в конфигурацию будут автоматически добавлены два подключения к виртуальным БД для генерации наборов синтетических данных большого объема и тестирования: otpcds и otpch.
- Подключите аналитическую БД на базе Cloud ClickHouse, чтобы выполнять быструю обработку части данных до их попадания в S3-хранилище.
- Подключите сервис Spark для работы со сложными ETL- и ELT-задачами.
- Изучите процесс загрузки данных в сервис и их аналитической обработки.