データレイクとは何ですか？

構造化・非構造化を問わず大量のデータを加工せずに蓄積しておく巨大なデータ保管庫。必要なときに目的に応じて取り出して分析するためのアーキテクチャ。

データレイクのポイントは？

生データをそのままの形式（CSV・JSON・画像・ログなど）で保管できる。蓄積時にスキーマを決めず、使うときに形を決める（スキーマオンリード）。データウェアハウスと違い、生データを大量・低コストで保持できる。AWS S3・Azure Data Lake・GCS などクラウドストレージが使われることが多い

【でーたれいく】

データレイクとは？

最終更新: 2026年3月29日

💡 「とりあえず全部ためておく」大きな湖のようなデータ保管庫

📌 このページのポイント

生データをそのままの形式（CSV・JSON・画像・ログなど）で保管できる
蓄積時にスキーマを決めず、使うときに形を決める（スキーマオンリード）
データウェアハウスと違い、生データを大量・低コストで保持できる
AWS S3・Azure Data Lake・GCS などクラウドストレージが使われることが多い

データレイクとデータウェアハウスの違い

ひよこ

データレイクってデータベースと何が違うの？

ペンギン先生

データベースはあらかじめ決まった形（テーブルの列など）にデータを整えて保存するんだ。データレイクは「ログファイルも・画像も・JSONも・CSVも、とりあえずそのまま全部入れておく」場所だよ。形を決めずに大量のデータをためておける倉庫みたいなものだね。

ひよこ

データウェアハウスとの違いは？

ペンギン先生

データウェアハウスは分析用に構造化・整理されたデータを格納するもので、BIツールなどで高速にクエリできるよ。データレイクはより生の状態で保存して柔軟性が高いけど、そのままでは分析しにくい場合が多い。最近は両方の特性を持つ「データレイクハウス」という概念も出てきているんだ。

ひよこ

とりあえず全部ためておけるなら、データレイクだけでよくない？

ペンギン先生

落とし穴があってね、整理せずにデータを入れ続けると「データスワンプ（泥沼）」になってしまうことがあるんだ。どこに何があるか分からなくて、誰も使えない巨大なゴミ箱になる。データカタログで何が入っているかを管理することが大切だよ。

ひよこ

データレイクをうまく使うための設計ってどうすればいいの？

ペンギン先生

「ブロンズ・シルバー・ゴールド」や「ランディングゾーン・クリーンゾーン」といった階層設計が一般的だよ。生データを入れる層、クリーニングした層、分析用に集計した層、と段階を分けるんだ。さらにデータの更新・削除を扱いやすくするDelta LakeやApache Icebergというオープンな「テーブルフォーマット」が普及していて、データレイクに「トランザクション性」を持たせる方向に進化している。この辺りを知らないと「データレイクに古いデータが残り続けて修正できない」問題に直面することがあるよ。

まとめ：ざっくりこれだけ覚えればOK！

「データレイク」って出てきたら「生データをそのまま大量に蓄積して、あとから目的に合わせて取り出す巨大なデータ保管庫だな」と思えばだいたいOK！

📖 おまけ：英語の意味

「Data Lake」＝データの湖

💬 様々な場所から流れ込む水（データ）をためる「湖（Lake）」のイメージから来ているよ。対してデータウェアハウスは「倉庫（Warehouse）」のイメージだね

← 用語集にもどる

データレイク とは？

データレイクとは？