【でーたぜんしょり】
データ前処理 とは?
💡 AIに渡す前の「下ごしらえ」作業
📌 このページのポイント
データ前処理って何のためにするの?
現実のデータは「欠けてたり」「バラつきがひどかったり」「文字と数字が混在したり」とガタガタなことが多いんだ。AIモデルはきれいなデータを前提にしているから、食べやすいように「下ごしらえ」してあげる必要があるよ。
欠損値ってどうすればいいの?
主に3つの方法があって、その行ごと削除する、平均値や中央値で埋める「補完」、または「欠損している」という情報自体を特徴量にする、という選択肢があるよ。どれが正しいかはデータと目的次第で、正解がないから判断力が求められる場面なんだ。
正規化と標準化って何が違うの?
前処理にどれくらい時間がかかるの?
「データサイエンスの仕事の80%は前処理」と言われるほど時間がかかるよ。特にビジネスの生データは想定外の形式や矛盾したデータが多くて、何が「正しいデータ」なのかをドメイン知識者に確認しながら進める必要があるんだ。
まとめ:ざっくりこれだけ覚えればOK!
「データ前処理」って出てきたら「AIが使えるようにデータをきれいに整える下準備のことだな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Data Preprocessing」 = データ前処理
💬 「Pre(前)+Processing(処理)」で「本処理の前に行う処理」を意味するよ。データサイエンスの現場では作業時間の大半を占めることも多い