【データクレンジング】
データクレンジング とは?
💡 データの大掃除!ゴミを取り除いてピカピカにする整理術
📌 このページのポイント
データクレンジングって何をするの?
データの中にある間違いや重複を見つけて直す作業だよ。たとえば住所録で「東京都」と「東京」が混在していたり、同じ人が2回登録されていたりするのを整理するイメージだね。
そんなに汚れたデータってあるものなの?
実はめちゃくちゃ多いよ。手入力のデータだと誤字脱字は当たり前だし、システム連携で文字化けしたり、日付の形式がバラバラだったり。調査によるとデータの約30%に何らかの問題があると言われているんだ。
具体的にはどんな種類の「汚れ」があるの?
手作業で全部直すのは大変そう...
クレンジングしないとどうなるの?
分析結果が全く信頼できなくなるよ。「Garbage In, Garbage Out」って言葉があって、ゴミデータを入れたらゴミな結果しか出てこないという意味だね。AIモデルの学習データが汚れていたら、モデルの精度もガタ落ちになるんだ。
どこまできれいにすればいいの? 完璧にするのは無理そう...
いい質問だね。実は100%を目指すのは現実的じゃないんだ。「必須項目の欠損率1%以下」「重複率0.5%以下」みたいに完了基準を先に決めておくのがプロのやり方だよ。データプロファイリングで現状を把握してから、優先度の高い問題から潰していくのがコツだね。
データがきれいだと気持ちいいね!
そうだね。ちなみにデータクレンジングはデータ分析プロジェクトの作業時間の60〜80%を占めると言われているよ。地味だけど、ここを手抜きすると後工程が全部崩れるから、一番大事な工程と言っても過言じゃないんだ。
まとめ:ざっくりこれだけ覚えればOK!
「データクレンジング」って出てきたら「データの汚れを取り除いてきれいにする作業」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Cleansing」 = データの洗浄・浄化
💬 cleanse は「清める・浄化する」という意味の英語で、データをきれいに洗い上げるイメージから来ているよ