【データひんしつ】

データ品質(Data Quality) とは?

💡 信頼できるデータがなければ、どんな分析も砂上の楼閣
📌 このページのポイント
データ品質の6つの次元 正確性 データが事実と一致するか 完全性 欠損値がないか 一貫性 複数ソース間で矛盾がないか 適時性 データが最新か 有効性 形式やルールに準拠しているか 一意性 重複データがないか 品質モニタリングの流れ ルール定義 自動チェック 異常検知 アラート 修正
データ品質の6つの評価次元とモニタリングの流れ
ひよこ ひよこ

データ品質って、データが合ってるかどうかってこと?

ペンギン先生 ペンギン先生

それも大事だけど、もっと幅広いよ。正確性だけじゃなくて、欠損がないか(完全性)、矛盾がないか(一貫性)、最新か(適時性)、形式が正しいか(有効性)など複数の観点で評価するんだ

ひよこ ひよこ

データ品質が悪いとどうなるの?

ペンギン先生 ペンギン先生

「ゴミ入れゴミ出し(Garbage In, Garbage Out)」という有名な言葉があるよ。品質の悪いデータで分析すると間違った結論が出て、誤った意思決定につながるんだ。実際にデータ品質の問題で数百万ドルの損失を出した企業もあるよ

ひよこ ひよこ

どうやってチェックするの?

ペンギン先生 ペンギン先生

たとえば「このカラムのNULL率が5%を超えたらアラート」「売上が前日比200%以上ならおかしい」みたいなルールを定義して自動チェックするんだ。Great ExpectationsやSodaというツールが人気だよ

ひよこ ひよこ

dbtのテストとは何が違うの?

ペンギン先生 ペンギン先生

dbtのテストはパイプライン実行時のチェックで、データ品質モニタリングはそれに加えて「時系列での品質の変化」も追跡するよ。たとえば「先週からNULL率が徐々に上がっている」みたいな傾向を検知できるんだ

ひよこ ひよこ

データ品質を改善するにはどうすればいいの?

ペンギン先生 ペンギン先生

まずは計測から始めることだね。品質スコアをダッシュボード化して、問題のあるテーブルを特定する。次にオーナーを決めて修正の責任を持たせる。そして継続的にモニタリングする。データガバナンスとセットで考えるのが鉄則だよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データ品質」って出てきたら「データが正確で信頼できる状態を保つための取り組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Quality」 = データの品質・質
💬 製造業の品質管理(QC)と同じ考え方をデータに適用したものだよ
← 用語集にもどる