Быстрый старт

Быстрый старт включает базовый сценарий развертывания сервиса Data Lakehouse (DLH) на основе трех компонентов:

  • VK Object Storage — S3-хранилище, которое используется в качестве недорогого бесконечно расширяемого хранилища неструктурированных данных, получаемых из различных БД, например PostgreSQL.

  • Cloud Iceberg Metastore — используется для организации каталога метаданных на базе Apache Iceberg. Обеспечивает согласованность операций между различными компонентами сервиса DLH.

  • Cloud Trino — в связке с Cloud Iceberg Metastore обеспечивает клиентам привычный SQL-интерфейс для выполнения следующих операций:

    • перенос данных (ETL);
    • манипуляции с захваченными данными (ELT);
    • комбинирование данных из разных источников (Data Mesh);
    • прочие операции с каталогом и данными.

Пройдя все шаги быстрого старта, вы:

  1. Создадите экземпляры сервисов Cloud Iceberg Metastore и Cloud Trino.
  2. Создадите инстанс БД PostgreSQL и настроите подключение к нему в Cloud Trino.

Бакет S3-хранилища будет создан автоматически при настройке подключений для экземпляра сервиса Cloud Trino.

1. Создайте экземпляр сервиса Cloud Iceberg Metastore

  1. Перейдите в раздел Data Platform → Экземпляры сервисов.

  2. Нажмите кнопку Создать экземпляр.

  3. На шаге Конфигурация:

    1. Выберите тип сервиса Cloud Iceberg Metastore.
    2. В поле Версия оставьте значение по умолчанию.
    3. Выберите конфигурацию Кластер.
  4. Нажмите кнопку Следующий шаг.

  5. На шаге Параметры:

    1. Запишите имя базы данных, сгенерированное автоматически. Оно понадобится для подключения к Cloud Trino.
    2. Включите опцию Назначить внешний IP.
    3. Выберите пункт Создать новый кластер.
    4. Выберите одну из доступных сетей в списке или создайте новую, нажав Создать новую сеть. При создании новой подсети укажите SDN и адрес подсети.
    5. Выберите зону доступности, например: Москва (ME1).
    6. Выберите вариант настройки Базовая, шаблон кластера Малый.
  6. Нажмите кнопку Следующий шаг.

  7. На шаге Обслуживание:

    1. Выберите дни недели и время начала проведения технических работ. В это время на сервере могут выполняться технические работы, в том числе создание резервных копий — сервис может быть временно недоступен.

    2. Для остальных полей оставьте значения по умолчанию.

  8. Нажмите кнопку Следующий шаг.

  9. На шаге Учетные данные:

    1. В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud Iceberg Metastore, он понадобится вам позже.

    2. В поле Пароль нажмите кнопку Сгенерировать, чтобы создать пароль администратора. Сохраните пароль, он понадобится вам позже.

  10. Нажмите кнопку Создать.

Дождитесь окончания процесса создания экземпляра сервиса Cloud Iceberg Metastore.

2. Создайте инстанс БД PostgreSQL

БД PostgreSQL в базовой конфигурации сервиса DLH выступает в качестве внешнего источника данных. Чтобы развернуть инстанс PostgreSQL:

  1. Перейдите в раздел Базы данных → Инстансы баз данных.

  2. Если в выбранном проекте нет ни одного инстанса БД, нажмите кнопку Создать базу данных.

    Иначе нажмите кнопку Добавить.

  3. На шаге Конфигурация:

    1. Выберите тип базы данных PostgreSQL.
    2. В поле Версия оставьте значение по умолчанию.
    3. Выберите конфигурацию Single.
  4. Нажмите кнопку Следующий шаг.

  5. На шаге Создание инстанса задайте:

    • Тип виртуальной машины: STD3-2-8.

    • Зону доступности: Москва (ME1).

    • Тип диска: SSD.

    • Размер диска, GB: 10.

    • Включить автомасштабирование диска: убедитесь, что эта опция не выбрана.

    • Сеть: выберите сеть, которую указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.

    • Назначить внешний IP: убедитесь, что эта опция включена.

    • Настройки Firewall: выберите ssh из выпадающего списка.

      Итоговый список групп безопасности должен иметь вид: default, ssh.

    • Создать реплику: убедитесь, что эта опция не выбрана.

    • Ключ для доступа по SSH: Создать новый ключ.

    • Резервное копирование: Отключено.

  6. Нажмите кнопку Следующий шаг.

  7. На шаге Инициализация задайте:

    • Тип создания: Новая база данных.
    • Имя пользователя: оставьте значение по умолчанию или придумайте свое, например: tsuser1.
    • Пароль пользователя: сгенерируйте пароль.

    Сохраните полученные значения логина и пароля. Они понадобятся вам позже.

    Имя базы данных для создания будет сгенерировано автоматически.

  8. Нажмите кнопку Создать базу данных.

    Дождитесь завершения создания инстанса БД.

3. Создайте экземпляр сервиса Cloud Trino

Cloud Trino используется в качестве горизонтально масштабируемого движка SQL-запросов к внешнему источнику (PostgreSQL).

Чтобы развернуть экземпляр сервиса Cloud Trino и настроить для него подключения к PostgreSQL:

  1. Перейдите в раздел Data Platform → Экземпляры сервисов.

  2. Нажмите кнопку Создать экземпляр.

  3. На шаге Конфигурация:

    1. Выберите тип сервиса Cloud Trino.
    2. В поле Версия оставьте значение по умолчанию.
    3. Выберите конфигурацию Single.
  4. Нажмите кнопку Следующий шаг.

  5. На шаге Параметры:

    1. В поле Название экземпляра задайте имя экземпляра или используйте значение по умолчанию.
    2. Включите опцию Назначить внешний IP.
    3. Выберите кластер, который указывали при создании экземпляра сервиса Cloud Iceberg Metastore на этапе развертывания базовой конфигурации.
    4. Выберите вариант настройки Базовая, шаблон кластера Малый.
    5. Нажмите кнопку Следующий шаг.
  6. На шаге Обслуживание:

    1. Техническое окно: оставьте значение по умолчанию. В это время на сервере могут выполняться технические работы, в том числе создание резервных копий — сервис может быть временно недоступен.

    2. Для остальных полей оставьте значения по умолчанию.

  7. Нажмите кнопку Следующий шаг.

  8. На шаге Подключения:

    1. Добавьте к экземпляру сервиса Cloud Trino источник данных PostgreSQL:

      1. Нажмите кнопку Добавить подключение.

      2. Выберите тип подключение PostgreSQL и укажите:

        • Название: придумайте название подключения, например: postgres_trino.
        • Название базы данных: имя базы данных внутри инстанса, например: ad_db. Доступен на вкладке Список баз данных после создания инстанса PostgreSQL.
        • hostname: адрес подключения к созданному инстансу PostgreSQL в формате: <IP-АДРЕС>:<ПОРТ>. Например 10.0.1.2:5432. Адрес подключения к БД можно посмотреть в карточке инстанса.
      3. Логин: значение, указанное при создании инстанса БД PostgreSQL. В этом примере: tsuser1.

      4. Пароль: пароль учетной записи пользователя базы данных, указанный при создании инстанса БД PostgreSQL.

    2. Добавьте к экземпляру сервиса Cloud Trino источник данных Apache Iceberg с S3 VK Cloud:

      1. Нажмите кнопку Добавить подключение.

      2. Выберите подключение Apache Iceberg с S3 VK Cloud.

      3. Укажите параметры подключения:

        • Название: придумайте название подключения, например: iceberg_s3.
        • hostname сервиса Iceberg Metastore: адрес подключения к созданному инстансу Iceberg Metastore в формате <IP-АДРЕС>:<ПОРТ>. Адрес сервиса Iceberg Metastore можно посмотреть в карточке инстанса на вкладке Общая информация в поле Postgres primary connection string.
        • Логин сервиса Iceberg Metastore: логин администратора, указанный при создании экземпляра сервиса Iceberg Metastore на этапе развертывания базовой конфигурации. В этом примере: vkdata.
        • Пароль сервиса Iceberg Metastore: пароль учетной записи пользователя базы данных, указанный при создании инстанса Iceberg Metastore.
        • Bucket: задайте имя бакета для создания S3-объектного хранилища, следуя правилам именования бакетов.
  9. Нажмите кнопку Следующий шаг.

  10. На шаге Учетные данные:

    1. В поле Логин оставьте значение по умолчанию. Запишите логин администратора для доступа к Cloud Trino, он понадобится вам позже.

    2. В поле Пароль нажмите кнопку Сгенерировать, чтобы сгенерировать пароль администратора. Сохраните пароль, он понадобится вам позже.

  11. Нажмите кнопку Создать.

Дождитесь окончания процесса создания экземпляра сервиса Cloud Trino.

После развертывания сервиса Trino в конфигурацию будут автоматически добавлены два подключения к виртуальным БД для генерации наборов синтетических данных большого объема и тестирования: otpcds и otpch.

Что дальше?

  1. Подключите аналитическую БД на базе Cloud ClickHouse, чтобы выполнять быструю обработку части данных до их попадания в S3-хранилище.
  2. Подключите сервис Spark для работы со сложными ETL- и ELT-задачами.
  3. Изучите процесс загрузки данных в сервис и их аналитической обработки.