【でーたれいく】
データレイク とは?
💡 「とりあえず全部ためておく」大きな湖のようなデータ保管庫
📌 このページのポイント
データレイクってデータベースと何が違うの?
データウェアハウスとの違いは?
とりあえず全部ためておけるなら、データレイクだけでよくない?
落とし穴があってね、整理せずにデータを入れ続けると「データスワンプ(泥沼)」になってしまうことがあるんだ。どこに何があるか分からなくて、誰も使えない巨大なゴミ箱になる。データカタログで何が入っているかを管理することが大切だよ。
データレイクをうまく使うための設計ってどうすればいいの?
「ブロンズ・シルバー・ゴールド」や「ランディングゾーン・クリーンゾーン」といった階層設計が一般的だよ。生データを入れる層、クリーニングした層、分析用に集計した層、と段階を分けるんだ。さらにデータの更新・削除を扱いやすくするDelta LakeやApache Icebergというオープンな「テーブルフォーマット」が普及していて、データレイクに「トランザクション性」を持たせる方向に進化している。この辺りを知らないと「データレイクに古いデータが残り続けて修正できない」問題に直面することがあるよ。
まとめ:ざっくりこれだけ覚えればOK!
「データレイク」って出てきたら「生データをそのまま大量に蓄積して、あとから目的に合わせて取り出す巨大なデータ保管庫だな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Data Lake」 = データの湖
💬 様々な場所から流れ込む水(データ)をためる「湖(Lake)」のイメージから来ているよ。対してデータウェアハウスは「倉庫(Warehouse)」のイメージだね