【データひんしつ】
データ品質(Data Quality) とは?
💡 信頼できるデータがなければ、どんな分析も砂上の楼閣
📌 このページのポイント
- 正確性、完全性、一貫性、適時性、有効性、一意性の6次元で品質を評価する
- データの欠損・重複・異常値を自動検知するモニタリングが重要
- Great ExpectationsやSodaなど専用の品質チェックツールが普及している
- データ品質の問題は下流の分析・意思決定に連鎖的に影響する(ゴミ入れゴミ出し)
データ品質って、データが合ってるかどうかってこと?
それも大事だけど、もっと幅広いよ。正確性だけじゃなくて、欠損がないか(完全性)、矛盾がないか(一貫性)、最新か(適時性)、形式が正しいか(有効性)など複数の観点で評価するんだ
データ品質が悪いとどうなるの?
「ゴミ入れゴミ出し(Garbage In, Garbage Out)」という有名な言葉があるよ。品質の悪いデータで分析すると間違った結論が出て、誤った意思決定につながるんだ。実際にデータ品質の問題で数百万ドルの損失を出した企業もあるよ
どうやってチェックするの?
dbtのテストとは何が違うの?
データ品質を改善するにはどうすればいいの?
まとめ:ざっくりこれだけ覚えればOK!
「データ品質」って出てきたら「データが正確で信頼できる状態を保つための取り組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Quality」 = データの品質・質
💬 製造業の品質管理(QC)と同じ考え方をデータに適用したものだよ