【データリネージ】

データリネージ とは?

💡 データの生い立ちから現在までを追跡する家系図
📌 このページのポイント
データリネージ - データの流れを追跡 ソース 注文DB 顧客DB 商品マスタ 変換・加工 売上結合テーブル 日次集計 分析・利用 月次レポート 売上ダッシュボード ML予測モデル 障害時のリネージ活用例 ダッシュボード異常 日次集計を確認 注文DBの障害が原因!
データリネージによるデータ追跡と障害分析のイメージ
ひよこ ひよこ

データリネージってなぜ必要なの?

ペンギン先生 ペンギン先生

たとえばダッシュボードの数字がおかしいとき、「この数字はどのテーブルから来てるの?」「そのテーブルはどのパイプラインで作ったの?」って遡る必要があるよね。リネージがあれば一目で経路がわかるんだ

ひよこ ひよこ

具体的にどんな情報が見えるの?

ペンギン先生 ペンギン先生

あるテーブルカラムが、どのソーステーブルのどのカラムから来ているか、途中でどんなSQL変換を経たか、下流ではどのダッシュボードやレポートに使われているか、全部グラフで見えるよ

ひよこ ひよこ

手動で記録するの?大変そう...

ペンギン先生 ペンギン先生

最近のツールは自動でリネージを収集してくれるよ。dbtならSQLのref関数から自動でDAGが生成されるし、データカタログツールもクエリログを解析して自動でリネージを構築するんだ

ひよこ ひよこ

コンプライアンスにも関係あるの?

ペンギン先生 ペンギン先生

大ありだよ。GDPRなどの個人情報保護法では「この個人データがどこに流れているか」を説明する義務があるんだ。リネージがあれば「ユーザーのメールアドレスはA→B→Cのテーブルに存在します」って即答できるよ

ひよこ ひよこ

カラムレベルリネージって聞いたことあるけど?

ペンギン先生 ペンギン先生

テーブルレベルの「テーブルAからテーブルBを作った」だけじゃなく、「テーブルAのカラムXとカラムYを結合してテーブルBのカラムZを作った」まで追跡するのがカラムレベルリネージだよ。精度は高いけど実装が難しくて、対応しているツールはまだ限られているね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データリネージ」って出てきたら「データの出どころと加工履歴を追跡する仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Lineage」 = データの血統・系譜
💬 lineageは「血統」「家系」という意味で、データの出自をたどれるようにする概念だよ
← 用語集にもどる