【でーたれいくはうす】

データレイクハウス とは?

💡 データレイクとDWHの「いいとこ取り」
📌 このページのポイント
データレイクハウス Data Lake あらゆる生データを保存 JSON 画像 ログ CSV ✓ 柔軟・安価 ✗ 品質管理が困難 + Data Warehouse 構造化データを管理 ID | 名前 | 日付 | 金額 ✓ 高品質・高速クエリ ✗ 高コスト・柔軟性低 = Lakehouse 生データ保存 スキーマ管理 低コスト 高速クエリ 両方の良いとこ取り Lakehouse の特徴 Lakeの柔軟性(あらゆるデータ形式対応)+ Warehouseの信頼性(ACID・スキーマ管理) 代表例: Delta Lake / Apache Iceberg / Apache Hudi 生データも構造化データも1つの基盤で管理する新しいアーキテクチャ
データレイクハウスのイメージ
ひよこ ひよこ

データレイクDWHの何が問題だったの?

ペンギン先生 ペンギン先生

データレイクは「何でも入れられる」けどデータ品質の管理が難しく、分析に使いにくい。DWHは「きちんと整理されている」けど非構造化データ(画像、ログなど)を扱いにくく、コストが高い。結局両方を維持するのが大変で、データの二重管理になっていたんだよ

ひよこ ひよこ

データレイクハウスで何が解決するの?

ペンギン先生 ペンギン先生

1つのストレージデータレイク)上で、DWHのような品質管理ACIDトランザクションスキーマの強制、タイムトラベル)ができるようになった。つまり「安いストレージに何でも入れつつ、必要なデータはきちんと管理して分析に使える」一石二鳥の構成だよ

ひよこ ひよこ

Delta LakeApache Icebergって何?

ペンギン先生 ペンギン先生

どちらもデータレイク上にDWHのような管理機能を追加する「テーブルフォーマット」だよ。Delta LakeはDatabricks発、Apache IcebergはNetflix発。S3やADLSなどのオブジェクトストレージ上にParquetファイルを配置して、トランザクション管理やスキーマ進化を実現するんだ

ひよこ ひよこ

今後の主流になる?

ペンギン先生 ペンギン先生

なりつつあるよ。Snowflake、Databricks、Google BigQueryAWS Athenaなど主要なクラウドデータプラットフォームがレイクハウスアーキテクチャに対応している。「DWHデータレイクか」の二択ではなく、レイクハウスに統合する流れが加速しているんだ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データレイクハウス」って出てきたら「データレイクDWHの長所を組み合わせた新しいデータ基盤」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Lakehouse」 = データレイクハウス
💬 Data Lake(湖)とData Warehouse(倉庫)を合わせた造語。Databricksが2020年に提唱したよ
← 用語集にもどる