データ前処理とは何ですか？

機械学習や分析の前に、生データをモデルが扱いやすい形に整える作業。欠損値処理・外れ値除去・正規化・エンコーディングなどが含まれる。

データ前処理のポイントは？

欠損値の補完または除去、外れ値の検出・処理が基本作業。数値データの正規化・標準化でスケールを揃える。カテゴリ変数のエンコーディング（One-Hot・ラベルエンコーディング）が必要。データ品質がモデル精度に直結し「Garbage in, Garbage out」という原則がある

【でーたぜんしょり】

最終更新: 2026年3月29日

💡 AIに渡す前の「下ごしらえ」作業

📌 このページのポイント

データ前処理の流れ

ひよこ

データ前処理って何のためにするの？

ペンギン先生

現実のデータは「欠けてたり」「バラつきがひどかったり」「文字と数字が混在したり」とガタガタなことが多いんだ。AIモデルはきれいなデータを前提にしているから、食べやすいように「下ごしらえ」してあげる必要があるよ。

ひよこ

欠損値ってどうすればいいの？

ペンギン先生

主に3つの方法があって、その行ごと削除する、平均値や中央値で埋める「補完」、または「欠損している」という情報自体を特徴量にする、という選択肢があるよ。どれが正しいかはデータと目的次第で、正解がないから判断力が求められる場面なんだ。

ひよこ

正規化と標準化って何が違うの？

ペンギン先生

正規化（Min-Maxスケーリング）は値を0〜1の範囲に収める方法。標準化（Zスコア正規化）は平均0・標準偏差1になるよう変換する方法。外れ値が多いデータには標準化の方が影響を受けにくいんだ。

ひよこ

前処理にどれくらい時間がかかるの？

ペンギン先生

「データサイエンスの仕事の80%は前処理」と言われるほど時間がかかるよ。特にビジネスの生データは想定外の形式や矛盾したデータが多くて、何が「正しいデータ」なのかをドメイン知識者に確認しながら進める必要があるんだ。

まとめ：ざっくりこれだけ覚えればOK！

「データ前処理」って出てきたら「AIが使えるようにデータをきれいに整える下準備のことだな」と思えばだいたいOK！

📖 おまけ：英語の意味

「Data Preprocessing」＝データ前処理

💬 「Pre（前）＋Processing（処理）」で「本処理の前に行う処理」を意味するよ。データサイエンスの現場では作業時間の大半を占めることも多い