【かがくしゅう】

過学習 とは?

💡 テスト問題を丸暗記して応用が利かない「AIのガリ勉」
📌 このページのポイント
過学習(オーバーフィッティング) 適切なモデル ✓ 傾向を捉えつつノイズは無視 過学習モデル ✗ ノイズまで覚えてしまう 誤差の推移 学習回数 → 誤差 → 最適 過学習 訓練誤差 テスト誤差 訓練データに過度に適合すると、未知のデータに対する予測精度が低下する 対策:正則化・ドロップアウト・早期打ち切り・データ拡張・交差検証 汎化性能を保つことが機械学習の重要な課題
訓練データへの過度な適合で汎化性能が下がる過学習の概念
ひよこ ひよこ

過学習ってどうやったらわかるの?

ペンギン先生 ペンギン先生

訓練データでの正解率は99%なのに、テストデータでは70%しか出ない、みたいな差が出るのが典型的なサインだよ。訓練データの精度がどんどん上がるのに、検証データの精度が途中から下がり始めたら過学習が始まっている証拠なんだ。

ひよこ ひよこ

なんで起こるの?

ペンギン先生 ペンギン先生

主に3つの原因があるよ。1つ目はモデルが複雑すぎること。パラメータが多すぎると訓練データのノイズまで記憶できてしまう。2つ目はデータが少なすぎること。少ないデータの偏りを「法則」と勘違いする。3つ目は学習のしすぎ。長く学習しすぎると細かいノイズまで覚えちゃうんだ。

ひよこ ひよこ

どうやって防ぐの?

ペンギン先生 ペンギン先生

定番の対策がいくつかあるよ。正則化でモデルの複雑さにペナルティを与える、ドロップアウトでランダムにニューロンを無効化する、データ拡張でデータ量を増やす、早期終了で検証精度が下がり始めたら学習をストップする。これらを組み合わせて使うのが一般的だよ。

ひよこ ひよこ

データをもっと集めれば過学習は起きないの?

ペンギン先生 ペンギン先生

データ量を増やすのは最も効果的な対策の一つだけど、万能ではないよ。データに偏りがあれば量を増やしても過学習は起きるし、医療画像のように大量のデータを集めるのが難しい分野もある。そういう場合はデータ拡張(画像の回転・反転・色調変更)で疑似的にデータ量を増やすこともあるんだ。

ひよこ ひよこ

「二重降下」って聞いたことあるんだけど、何のこと?

ペンギン先生 ペンギン先生

いい質問だね!従来は「モデルを複雑にすると一旦テスト誤差が下がった後にまた上がる(過学習)」と考えられていたんだけど、2019年の研究でさらにモデルを大きくすると再びテスト誤差が下がる「二重降下現象」が報告されたんだ。GPTなどの巨大モデルがうまく機能する理由の一つとも考えられている、ディープラーニングの謎めいた現象だよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「過学習」って出てきたら「訓練データに特化しすぎて新しいデータに対応できなくなる、モデルのやりすぎ現象だな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Overfitting」 = 過剰な適合
💬 「Over(過度に)」+「Fitting(適合する)」。データに過度にフィットしすぎて本質を見失うことを表すよ
← 用語集にもどる