【でーたぜんしょり】

データ前処理 とは?

💡 AIに渡す前の「下ごしらえ」作業
📌 このページのポイント
データ前処理パイプライン 生データ 欠損・ノイズ 混在型 欠損値 処理 補完・削除 正規化 Min-Max 標準化 エンコー ディング One-Hot Label 特徴量 学習準備 完了 各ステップのデータ変化例 年齢 | 性別 25 | 男 null | 女 40 | 男 30 | null 年齢 | 性別 25 | 男 32 | 女 40 | 男 30 | 男 年齢 | 性別 0.00 | 男 0.47 | 女 1.00 | 男 0.33 | 男 年齢 | 男 | 女 0.00 | 1 | 0 0.47 | 0 | 1 1.00 | 1 | 0 0.33 | 1 | 0 学習 可能な 数値 データ
データ前処理の流れ
ひよこ ひよこ

データ前処理って何のためにするの?

ペンギン先生 ペンギン先生

現実のデータは「欠けてたり」「バラつきがひどかったり」「文字と数字が混在したり」とガタガタなことが多いんだ。AIモデルはきれいなデータを前提にしているから、食べやすいように「下ごしらえ」してあげる必要があるよ。

ひよこ ひよこ

欠損値ってどうすればいいの?

ペンギン先生 ペンギン先生

主に3つの方法があって、その行ごと削除する、平均値や中央値で埋める「補完」、または「欠損している」という情報自体を特徴量にする、という選択肢があるよ。どれが正しいかはデータと目的次第で、正解がないから判断力が求められる場面なんだ。

ひよこ ひよこ

正規化と標準化って何が違うの?

ペンギン先生 ペンギン先生

正規化(Min-Maxスケーリング)は値を0〜1の範囲に収める方法。標準化(Zスコア正規化)は平均0・標準偏差1になるよう変換する方法。外れ値が多いデータには標準化の方が影響を受けにくいんだ。

ひよこ ひよこ

前処理にどれくらい時間がかかるの?

ペンギン先生 ペンギン先生

「データサイエンスの仕事の80%は前処理」と言われるほど時間がかかるよ。特にビジネスの生データは想定外の形式や矛盾したデータが多くて、何が「正しいデータ」なのかをドメイン知識者に確認しながら進める必要があるんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「データ前処理」って出てきたら「AIが使えるようにデータをきれいに整える下準備のことだな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Data Preprocessing」 = データ前処理
💬 「Pre(前)+Processing(処理)」で「本処理の前に行う処理」を意味するよ。データサイエンスの現場では作業時間の大半を占めることも多い
← 用語集にもどる