О сервисе
Cloud Iceberg Metastore — компонент системы управления метаданными для таблиц в формате Apache Iceberg.
Cloud Iceberg Metastore:
-
Обеспечивает соблюдение ACID-требований при выполнении запросов (
INSERT,UPDATE,MERGE,DELETE):- Атомарность (Atomicity). Транзакция выполняется целиком или, в случае сбоя какой-то части (операции), откатывается со всеми изменениями.
- Согласованность (Consistency). Транзакция переводит базу данных из одного допустимого состояния в другое с соблюдением установленных ограничений целостности. Нарушение ограничений приводит к полной отмене транзакции.
- Изоляция (Isolation). Каждая транзакция выполняется изолированно от других. Промежуточные результаты работы транзакции не видны другим параллельно выполняющимся процессам до момента завершения. Это предотвращает конфликты при одновременном доступе к данным.
- Долговечность (Durability). Изменения, внесенные транзакцией, сохраняются и доступны после ее завершения, даже если происходит отказ системы или другой сбой.
-
Поддерживает эволюцию схем данных (schema evolution): позволяет добавлять, удалять или изменять тип столбцов в таблице без полной перезаписи данных. Синхронизирует изменения с каталогом PostgreSQL и хранилищем S3.
-
Обрабатывает ETL-задачи — процессы извлечения (Extract), преобразования (Transform) и загрузки данных (Load).
Возможные сценарии использования сервиса:
-
В качестве компонента при создании следующих типов хранилищ данных:
- Озеро данных (Data Lakehouse). Сервис используется для организации и управления большими объемами структурированных и неструктурированных данных в хранилище S3.
- Аналитическое хранилище данных (Data Warehouse). Сервис выполняет аналитические запросы к структурированным данным с оптимизацией через компактирование (уплотнение) и партиционирование (partitioning).
- Облачное хранилище. Сервис интегрируется с хранилищем S3 и сервисами VK Data Platform.
-
Организация ETL-процессов. Сервис ускоряет процессы за счет поддержки schema evolution и транзакционности.
Другие сервисы (Cloud Spark, Cloud Trino, Cloud Flink и др.) используют Cloud Iceberg Metastore для поиска и интерпретации таблиц Apache Iceberg.