データウェアハウスとの違いは?
データウェアハウスは企業全体のデータを統合した大きな倉庫。データマートはそこから特定の部門やテーマ向けに必要なデータだけを抽出した小さな倉庫。DWHが「デパート」ならデータマートは「専門店」だよ
なぜDWHから直接分析しないの?
DWHは巨大なデータを抱えているから、部門の分析者が直接クエリを投げると他の処理に影響が出たり、クエリの実行時間が長くなったりする。データマートなら必要なデータだけだからレスポンスが速く、部門独自の加工や集計もしやすいんだよ
どうやって作るの?
DWHからETL(Extract-Transform-Load)処理でデータを抽出・変換・格納するのが基本だよ。毎日バッチ処理で最新データを反映するケースが多い。最近はクラウドDWH(BigQuery、Snowflakeなど)の性能向上で、データマートを別途作らず仮想的なビューで代替するケースも増えているね
データマートの設計で気をつけることは?
部門ごとにバラバラにデータマートを作ると「数字が合わない」問題が起きやすい。売上の定義が部門によって違うとか、同じ顧客IDが異なるマスタを参照しているとか。DWHで統一されたデータから派生させることで、データの一貫性を保つことが重要だよ