【とくちょうりょうえんじにありんぐ】

特徴量エンジニアリング とは?

💡 AIに渡す「ヒント集」を職人が手作りする技術
📌 このページのポイント
特徴量エンジニアリング 生データ 📅 日付 2024-03-15 💰 価格 ¥1,500 📝 テキスト "良い商品" 特徴量変換 曜日 日付 → 金曜日(5) 価格変化率 前日比 → +3.2% 単語数 テキスト → 4語 モデル入力 特徴量ベクトル x₁ = 5 x₂ = 0.032 x₃ = 4 [5, 0.032, 4, ...] 特徴量エンジニアリングのポイント 生データからモデルが学習しやすい数値表現に変換する。良い特徴量がモデル精度を左右する
特徴量エンジニアリングの流れ
ひよこ ひよこ

特徴量エンジニアリングって何をするの?

ペンギン先生 ペンギン先生

例えば「不動産価格を予測するAI」を作るとき、住所データをそのまま渡すより「駅からの徒歩分数」という特徴量に変換した方がAIが学びやすくなるんだ。生データを「AIが理解しやすい形」に加工する作業が特徴量エンジニアリングだよ。

ひよこ ひよこ

具体的にどんな作業があるの?

ペンギン先生 ペンギン先生

「男・女」のような文字データを0・1の数字に変えるOne-Hotエンコーディング、数値の範囲を揃えるスケーリング、空白のデータを埋める欠損値補完などがあるよ。さらに「築年数×面積」みたいな新しい特徴量を作ることもあるんだ。

ひよこ ひよこ

どれくらい重要なの?

ペンギン先生 ペンギン先生

実務のデータサイエンティストは「作業時間の8割がデータ準備と特徴量エンジニアリング」と言われるくらい重要なんだ。モデルの構造を改善するより、良い特徴量を作る方が劇的に精度が上がることも多いよ。

ひよこ ひよこ

深層学習が普及したら不要になるの?

ペンギン先生 ペンギン先生

画像や音声では深層学習が特徴量を自動抽出してくれることが多いけど、表形式のビジネスデータではまだまだ人手の特徴量エンジニアリングが重要なんだ。Kaggleのコンペでも上位入賞者の多くが独自の特徴量作りで差をつけているよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「特徴量エンジニアリング」って出てきたら「AIが学習しやすいようにデータを加工・変換する作業のことだな」と思えばだいたいOK!
📖 おまけ:英語の意味
「Feature Engineering」 = 特徴量エンジニアリング
💬 Featureは機械学習における「特徴量(入力変数)」を指し、Engineeringはそれを工学的に設計・加工することを意味するよ
← 用語集にもどる