【データカタログ】

データカタログ とは?

💡 組織のデータを図書館のように検索可能にする
📌 このページのポイント
データカタログ - 組織のデータを検索可能にする DWH データレイク SaaS/API データカタログ 売上データを検索... sales_daily 品質: 高 オーナー: 田中 更新: 毎日 06:00 user_segments 品質: 中 オーナー: 鈴木 更新: 毎週月曜 アナリスト エンジニア マネージャー 管理するメタデータ スキーマ情報 データ品質 所有者・権限 リネージ 利用状況
データカタログによるメタデータ管理の全体像
ひよこ ひよこ

データカタログって、データベースの一覧表みたいなもの?

ペンギン先生 ペンギン先生

近いけどもっと広い概念だよ。データベーステーブルだけじゃなくて、CSVファイル、APIダッシュボードなど組織内のあらゆるデータ資産のメタデータを登録して検索できるようにするんだ

ひよこ ひよこ

メタデータって具体的に何が入ってるの?

ペンギン先生 ペンギン先生

テーブル名やカラムの説明はもちろん、データの所有者、更新頻度、データ品質スコア、どのパイプラインで作られたか、誰がよく使っているかまで記録できるよ

ひよこ ひよこ

なくても困らないんじゃない?

ペンギン先生 ペンギン先生

小さい組織ならSlackで「このデータどこにある?」って聞けば済むけど、社員が数百人、テーブルが数万個になると破綻するんだ。アナリストが「使えるデータを探す」だけで何時間もかかる、なんてことが実際に起きるよ

ひよこ ひよこ

データカタログを導入するとどう変わるの?

ペンギン先生 ペンギン先生

検索バーにキーワードを入れるだけで関連するテーブルダッシュボードが見つかるよ。しかも「このテーブルは品質が高い」「この人がオーナー」みたいな信頼性情報も表示されるから、間違ったデータを使うリスクも減るんだ

ひよこ ひよこ

有名なツールは?

ペンギン先生 ペンギン先生

LinkedInが開発したDataHub、LyftのAmundsen、あとはOpenMetadataが有名なOSSだね。商用だとAlation、Collibra、Atlanあたりが大手企業で使われているよ。最近はdbtドキュメント機能を簡易的なデータカタログとして使うチームも増えているね

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データカタログ」って出てきたら「組織のデータを検索・管理できるメタデータの一覧表」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Catalog」 = データ目録
💬 図書館のカタログのように、膨大なデータ資産を検索可能にする仕組みだよ
← 用語集にもどる