О сервисе

Data Lakehouse (DLH) — это гибридная архитектура управления данными, которую можно организовать на платформе VK Cloud. Она объединяет масштабируемость и гибкость Data Lake с надежностью и структурированностью Data Warehouse. Такая архитектура:

  • Обеспечивает единое пространство для хранения, обработки и анализа данных любого объема и формата.
  • Поддерживает ACID-транзакции, версионный контроль.
  • Совместима с современными аналитическими инструментами: Spark, Trino, BI-системами.

В Data Lakehouse слой хранения данных реализован на базе хранилища S3, а для доступа к данным используется привычный SQL-интерфейс. Такой подход позволяет упростить хранение «сырых» неструктурированных данных, сделать инфраструктуру для них дешевле и при этом эффективно выполнять аналитические SQL-запросы без потери качества результатов. Физически оба слоя разнесены и могут горизонтально масштабироваться независимо друг от друга.

Неструктурированные данные сохраняются в хранилище S3 из разных источников в различных форматах данных: TSV, CSV, XML, syslog, JSON и т.д. Например, такими данными могут быть:

  • видеозаписи с камер наружного наблюдения;
  • телеметрия с датчиков и устройств;
  • графические файлы;
  • данные о поведении пользователей сайтов;
  • логи из информационных систем.

В «сыром» виде такие данные непригодны для ежедневной аналитики в BI-системах, но могут быть использованы для быстрой отработки новых бизнес-гипотез с помощью алгоритмов машинного обучения или других методов Data Science.

Чтобы организовать полноценный доступ аналитических сервисов к данным Data Lakehouse, необходимо разметить и каталогизировать информацию об объектах в S3-хранилище в одном из общепринятых открытых форматов (например, с помощью сервиса Cloud Iceberg Metastore). Затем к размеченным данным через API-интерфейс подключается движок выполнения SQL-запросов на базе Cloud Trino или Cloud Spark, чтобы организовать сквозную потоковую передачу событий в реальном времени.

Таким образом, Data Lakehouse позволяет использовать инструменты бизнес-аналитики непосредственно в исходных данных, повышая их актуальность, а также уменьшая задержку и затраты, связанные с необходимостью выполнения ETL-операций.

Для каких задач подходит?

Data Lakehouse на базе VK Cloud является эффективным решением, если нужно:

  • заменить устаревший Hadoop-стек работы с данными;
  • переехать из Greenplum;
  • внедрить систему работы с большими данными на базе существующего S3;
  • построить Data Office «с нуля».

Как начать пользоваться?

В зависимости от задачи вы можете использовать Data Lakehouse в разных сценариях:

  • Интеграция компонентов Data Lakehouse с внешними источниками данных. При каждом обращении информация передается между системами.
  • Создание полной архитектуры Data Lakehouse на базе VK Cloud и миграция с однократным перемещением данных в новую систему.

Некоторые сценарии для работы с Data Lakehouse вы можете найти в разделе Практические руководства.