【みがくしゅう】

未学習 とは?

💡 勉強不足でテストも授業もさっぱりな「AIの居眠り学生」
📌 このページのポイント
アンダーフィッティング vs 適切 vs オーバーフィッティング アンダーフィッティング (学習不足) データの傾向を 捉えられていない 適切なフィッティング (ちょうど良い) データの傾向を 適切に捉えている オーバーフィッティング (過学習) ノイズまで学習し 汎化できない
アンダーフィッティングのイメージ
ひよこ ひよこ

過学習と未学習ってどう違うの?

ペンギン先生 ペンギン先生

過学習は「勉強しすぎて丸暗記になり、応用が利かない」状態。未学習は「そもそも勉強が足りなくて基礎すらわかっていない」状態だよ。過学習訓練データの精度だけ高いけど、未学習は訓練データでも精度が低いのが見分けるポイントだね。

ひよこ ひよこ

なんで未学習になるの?

ペンギン先生 ペンギン先生

よくあるのは「モデルが単純すぎる」ケースだよ。例えば曲線的なパターンのデータを直線だけで表現しようとすると、どう頑張ってもフィットしない。あとは学習回数(エポック数)が少なすぎてモデルが十分に学べていない場合もあるね。

ひよこ ひよこ

未学習の対策は?

ペンギン先生 ペンギン先生

モデルの表現力を上げるのが基本だよ。層を深くしたり、ニューロン数を増やしたり、より複雑なモデルに変えたりする。学習回数を増やしたり、データの特徴量を追加するのも効果的。ただしやりすぎると今度は過学習になるから、バランスが大事なんだ。

ひよこ ひよこ

未学習と過学習のバランスを取るのが難しいって聞くけど?

ペンギン先生 ペンギン先生

これを「バイアス-バリアンストレードオフ」と言うよ。未学習はバイアスが高い(モデルが単純すぎて真のパターンを捉えられない)状態、過学習はバリアンスが高い(訓練データの些細なパターンにまで反応してしまう)状態。ちょうどいいポイントを見つけるには、検証データの損失が上がり始めるタイミングで学習を止める「早期停止」が効果的だよ。

ひよこ ひよこ

未学習って見た目でわかるの?

ペンギン先生 ペンギン先生

学習曲線をグラフにすると一目瞭然だよ。訓練損失と検証損失の両方が高止まりしていたら未学習。訓練損失は低いのに検証損失が高いのは過学習。理想は両方が低くて差が小さい状態。TensorBoardやWandBなどの可視化ツールで学習曲線を監視するのが、機械学習エンジニアの基本動作なんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「未学習」って出てきたら「モデルの能力不足で訓練データすらうまく学習できていない状態だな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Underfitting」 = 適合不足
💬 「Under(不十分に)」+「Fitting(適合する)」。データへの適合が不十分で、パターンを捉えきれていない状態を表すよ
← 用語集にもどる