【データクレンジング】

データクレンジング とは?

💡 データの大掃除!ゴミを取り除いてピカピカにする整理術
📌 このページのポイント
データクレンジング(Before / After) Before(汚れたデータ) 名前 住所 年齢 田中太郎 東京都 30 田中太郎 東京 30 重複 鈴木花子 NULL 25 欠損 佐藤次郎 大阪府 999 外れ値 高橋三郎 トウキョウト 40 表記ゆれ 修正 After(きれいなデータ) 名前 住所 年齢 田中太郎 東京都 30 鈴木花子 東京都 25 補完 佐藤次郎 大阪府 45 修正 高橋三郎 東京都 40 統一 クレンジング処理 重複削除 欠損値補完 外れ値修正 表記統一
データクレンジングのイメージ
ひよこ ひよこ

データクレンジングって何をするの?

ペンギン先生 ペンギン先生

データの中にある間違いや重複を見つけて直す作業だよ。たとえば住所録で「東京都」と「東京」が混在していたり、同じ人が2回登録されていたりするのを整理するイメージだね。

ひよこ ひよこ

そんなに汚れたデータってあるものなの?

ペンギン先生 ペンギン先生

実はめちゃくちゃ多いよ。手入力のデータだと誤字脱字は当たり前だし、システム連携で文字化けしたり、日付の形式がバラバラだったり。調査によるとデータの約30%に何らかの問題があると言われているんだ。

ひよこ ひよこ

具体的にはどんな種類の「汚れ」があるの?

ペンギン先生 ペンギン先生

大きく分けると5種類あるよ。欠損値(空欄)、重複レコード、表記ゆれ(全角半角の違いなど)、フォーマット不統一(日付がYYYY/MM/DDとMM-DD-YYYYで混在)、そして外れ値(年齢が999歳など明らかにおかしい値)だね。

ひよこ ひよこ

手作業で全部直すのは大変そう...

ペンギン先生 ペンギン先生

そうだね。だからルールベースで自動化するのが基本だよ。「全角英数字は半角に統一」「電話番号のハイフンを除去」みたいなルールを決めて、スクリプトETLツールで一括処理するんだ。

ひよこ ひよこ

クレンジングしないとどうなるの?

ペンギン先生 ペンギン先生

分析結果が全く信頼できなくなるよ。「Garbage In, Garbage Out」って言葉があって、ゴミデータを入れたらゴミな結果しか出てこないという意味だね。AIモデルの学習データが汚れていたら、モデルの精度もガタ落ちになるんだ。

ひよこ ひよこ

どこまできれいにすればいいの? 完璧にするのは無理そう...

ペンギン先生 ペンギン先生

いい質問だね。実は100%を目指すのは現実的じゃないんだ。「必須項目の欠損率1%以下」「重複率0.5%以下」みたいに完了基準を先に決めておくのがプロのやり方だよ。データプロファイリングで現状を把握してから、優先度の高い問題から潰していくのがコツだね。

ひよこ ひよこ

データがきれいだと気持ちいいね!

ペンギン先生 ペンギン先生

そうだね。ちなみにデータクレンジングはデータ分析プロジェクトの作業時間の60〜80%を占めると言われているよ。地味だけど、ここを手抜きすると後工程が全部崩れるから、一番大事な工程と言っても過言じゃないんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データクレンジング」って出てきたら「データの汚れを取り除いてきれいにする作業」と思えればだいたいOK!
📖 おまけ:英語の意味
「Data Cleansing」 = データの洗浄・浄化
💬 cleanse は「清める・浄化する」という意味の英語で、データをきれいに洗い上げるイメージから来ているよ
← 用語集にもどる