【でーたうぇあはうす】

データウェアハウス(DWH) とは?

💡 企業のデータを「倉庫」に集めて分析する
📌 このページのポイント
ETL パイプラインと DWH 構成 販売 DB 在庫 DB CRM OLTP ソース ETL 抽出・変換・格納 クレンジング DWH ファクト表 時間 商品 顧客 店舗 スタースキーマ BI ツール 分析・可視化 業務データを統合 → 意思決定に活用
データウェアハウスの構成
ひよこ ひよこ

なんで業務DBで直接分析しないの?

ペンギン先生 ペンギン先生

業務DB(OLTP)は注文処理やユーザー登録など日常業務の読み書きに最適化されている。ここで重い分析クエリを実行すると業務に支障が出る。DWHは分析クエリに最適化されていて、大量データの集計が高速。業務DBから定期的にデータをコピーして分析するんだよ

ひよこ ひよこ

BigQueryとRedshiftの違いは?

ペンギン先生 ペンギン先生

BigQueryGCP)はサーバーレスで従量課金、クエリの量に応じて課金される。Redshift(AWS)はクラスタを構築して時間課金。Snowflakeマルチクラウドストレージとコンピュートが分離。手軽さならBigQueryAWSエコシステムとの親和性ならRedshift、柔軟性ならSnowflakeという選び方が一般的だね

ひよこ ひよこ

おもしろい!ETLって何?

ペンギン先生 ペンギン先生

Extract(抽出)→Transform(変換)→Load(格納)の3ステップだよ。業務DBからデータを抽出し、分析しやすい形に変換(正規化の解除、コード値のラベル変換など)し、DWHに格納する。最近はELT(先に格納してからDWH内で変換)の方が主流で、dbtというツールが人気だね

ひよこ ひよこ

データレイクとの違いは?

ペンギン先生 ペンギン先生

DWHは構造化データテーブル形式)を整理して格納する「きれいな倉庫」。データレイクJSON、画像、ログなど非構造化データも含めて「とりあえず全部放り込む」。最近はこの2つの良いとこ取りをする「データレイクハウス」(Databricks、Delta Lake)がトレンドだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データウェアハウス」って出てきたら「分析用にデータを集めた倉庫」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Warehouse」 = データ倉庫
💬 Data(データ)のWarehouse(倉庫)。業務データを分析用に整理して保管する「倉庫」だよ
← 用語集にもどる