【せいそくか】

正則化 とは?

💡 機械学習モデルの「暗記禁止ルール」
📌 このページのポイント
正則化による過学習の防止 過学習(正則化なし) 訓練データにフィットしすぎ 適切な学習(正則化あり) 滑らかで汎化性能が高い 代表的な正則化手法 L1正則化(Lasso) 不要な特徴を0にする L2正則化(Ridge) 重みを小さく抑える ドロップアウト ニューロンをランダム無効化
正則化のイメージ
ひよこ ひよこ

正則化ってよく聞くけど何のためにあるの?

ペンギン先生 ペンギン先生

機械学習モデルが「試験の答えを丸暗記」しちゃうのを防ぐためだよ。過学習って言って、訓練データには完璧に答えられるけど新しいデータには全然使えない状態になるんだ。

ひよこ ひよこ

どうやって暗記を防ぐの?

ペンギン先生 ペンギン先生

「パラメーターが大きくなりすぎたら罰則を与える」んだ。モデルは損失を最小化しようとするから、罰則を嫌って「シンプルな答え」を選ぶようになるんだよ。

ひよこ ひよこ

L1とL2って何が違うの?

ペンギン先生 ペンギン先生

L1(Lasso)は使わない特徴量のパラメーターをきっかりゼロにできるから、「どの特徴量が重要か」を自動選択できるんだ。L2(Ridge)は全パラメーターを小さく押さえるから全体的に安定したモデルになるよ。

ひよこ ひよこ

じゃあどっちを使えばいいの?

ペンギン先生 ペンギン先生

ここが玄人でも悩むポイントで、特徴量の数が多くて不要なものを削ぎ落としたい時はL1、相関する特徴量が多い時はL2が向くんだ。さらに両方組み合わせた「ElasticNet」もある。そして正則化の強さを決めるλをどう設定するかも重要で、クロスバリデーションで探索するのが定石だよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
正則化って出てきたら「モデルが過学習しないよう複雑さにペナルティをかける手法」と思えばだいたいOK!
📖 おまけ:英語の意味
「Regularization」 = 正則化・規則化
💬 数学の「正則(regular)=良い性質を持つ」から来ている。機械学習ではTikhonovが考案したL2が有名
← 用語集にもどる