【でーたれいくはうす】
データレイクハウス とは?
💡 データレイクとDWHの「いいとこ取り」
📌 このページのポイント
- DatabricksのDelta Lake、Apache Icebergなどが代表的な基盤技術
- 構造化データも非構造化データも統一的に管理
- ACIDトランザクション、スキーマ管理をデータレイク上で実現
- ETL/ELTの簡素化とコスト削減に貢献
データレイクハウスで何が解決するの?
どちらもデータレイク上にDWHのような管理機能を追加する「テーブルフォーマット」だよ。Delta LakeはDatabricks発、Apache IcebergはNetflix発。S3やADLSなどのオブジェクトストレージ上にParquetファイルを配置して、トランザクション管理やスキーマ進化を実現するんだ
今後の主流になる?
📖 おまけ:英語の意味
「Data Lakehouse」 = データレイクハウス
💬 Data Lake(湖)とData Warehouse(倉庫)を合わせた造語。Databricksが2020年に提唱したよ