【でーたれいく】

データレイク とは?

💡 「とりあえず全部ためておく」大きな湖のようなデータ保管庫
📌 このページのポイント
データレイク vs データウェアハウス データレイク 生データをそのまま蓄積 CSV JSON 画像 ログ 音声 XML Schema on Read 読み取り時にスキーマ適用 柔軟・大量データ向き ETL 抽出・変換 ・読込 データウェアハウス 整理・構造化されたデータ ID 名前 売上 日付 1 | 田中 | 5000 | 03/01 2 | 佐藤 | 3200 | 03/02 3 | 鈴木 | 4100 | 03/03 Schema on Write 書き込み時にスキーマ適用 高速クエリ・分析向き データレイクに蓄積 → ETLで変換 → ウェアハウスで分析が一般的な構成
データレイクとデータウェアハウスの違い
ひよこ ひよこ

データレイクってデータベースと何が違うの?

ペンギン先生 ペンギン先生

データベースはあらかじめ決まった形(テーブルの列など)にデータを整えて保存するんだ。データレイクは「ログファイルも・画像も・JSONも・CSVも、とりあえずそのまま全部入れておく」場所だよ。形を決めずに大量のデータをためておける倉庫みたいなものだね。

ひよこ ひよこ

データウェアハウスとの違いは?

ペンギン先生 ペンギン先生

データウェアハウスは分析用に構造化・整理されたデータを格納するもので、BIツールなどで高速にクエリできるよ。データレイクはより生の状態で保存して柔軟性が高いけど、そのままでは分析しにくい場合が多い。最近は両方の特性を持つ「データレイクハウス」という概念も出てきているんだ。

ひよこ ひよこ

とりあえず全部ためておけるなら、データレイクだけでよくない?

ペンギン先生 ペンギン先生

落とし穴があってね、整理せずにデータを入れ続けると「データスワンプ(泥沼)」になってしまうことがあるんだ。どこに何があるか分からなくて、誰も使えない巨大なゴミ箱になる。データカタログで何が入っているかを管理することが大切だよ。

ひよこ ひよこ

データレイクをうまく使うための設計ってどうすればいいの?

ペンギン先生 ペンギン先生

「ブロンズ・シルバー・ゴールド」や「ランディングゾーン・クリーンゾーン」といった階層設計が一般的だよ。生データを入れる層、クリーニングした層、分析用に集計した層、と段階を分けるんだ。さらにデータの更新・削除を扱いやすくするDelta LakeApache Icebergというオープンな「テーブルフォーマット」が普及していて、データレイクに「トランザクション性」を持たせる方向に進化している。この辺りを知らないと「データレイクに古いデータが残り続けて修正できない」問題に直面することがあるよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データレイク」って出てきたら「生データをそのまま大量に蓄積して、あとから目的に合わせて取り出す巨大なデータ保管庫だな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Data Lake」 = データの湖
💬 様々な場所から流れ込む水(データ)をためる「湖(Lake)」のイメージから来ているよ。対してデータウェアハウスは「倉庫(Warehouse)」のイメージだね
← 用語集にもどる