О сервисе

Cloud Iceberg Metastore — компонент системы управления метаданными для таблиц в формате Apache Iceberg.

Cloud Iceberg Metastore:

  • Обеспечивает соблюдение ACID-требований при выполнении запросов (INSERT, UPDATE, MERGE, DELETE):

    • Атомарность (Atomicity). Транзакция выполняется целиком или, в случае сбоя какой-то части (операции), откатывается со всеми изменениями.
    • Согласованность (Consistency). Транзакция переводит базу данных из одного допустимого состояния в другое с соблюдением установленных ограничений целостности. Нарушение ограничений приводит к полной отмене транзакции.
    • Изоляция (Isolation). Каждая транзакция выполняется изолированно от других. Промежуточные результаты работы транзакции не видны другим параллельно выполняющимся процессам до момента завершения. Это предотвращает конфликты при одновременном доступе к данным.
    • Долговечность (Durability). Изменения, внесенные транзакцией, сохраняются и доступны после ее завершения, даже если происходит отказ системы или другой сбой.
  • Поддерживает эволюцию схем данных (schema evolution): позволяет добавлять, удалять или изменять тип столбцов в таблице без полной перезаписи данных. Синхронизирует изменения с каталогом PostgreSQL и хранилищем S3.

  • Обрабатывает ETL-задачи — процессы извлечения (Extract), преобразования (Transform) и загрузки данных (Load).

Возможные сценарии использования сервиса:

  1. В качестве компонента при создании следующих типов хранилищ данных:

    • Озеро данных (Data Lakehouse). Сервис используется для организации и управления большими объемами структурированных и неструктурированных данных в хранилище S3.
    • Аналитическое хранилище данных (Data Warehouse). Сервис выполняет аналитические запросы к структурированным данным с оптимизацией через компактирование (уплотнение) и партиционирование (partitioning).
    • Облачное хранилище. Сервис интегрируется с хранилищем S3 и сервисами VK Data Platform.
  2. Организация ETL-процессов. Сервис ускоряет процессы за счет поддержки schema evolution и транзакционности.

Другие сервисы (Cloud Spark, Cloud Trino, Cloud Flink и др.) используют Cloud Iceberg Metastore для поиска и интерпретации таблиц Apache Iceberg.