【せいそくか】
正則化 とは?
💡 機械学習モデルの「暗記禁止ルール」
📌 このページのポイント
正則化ってよく聞くけど何のためにあるの?
どうやって暗記を防ぐの?
「パラメーターが大きくなりすぎたら罰則を与える」んだ。モデルは損失を最小化しようとするから、罰則を嫌って「シンプルな答え」を選ぶようになるんだよ。
L1とL2って何が違うの?
L1(Lasso)は使わない特徴量のパラメーターをきっかりゼロにできるから、「どの特徴量が重要か」を自動選択できるんだ。L2(Ridge)は全パラメーターを小さく押さえるから全体的に安定したモデルになるよ。
じゃあどっちを使えばいいの?
ここが玄人でも悩むポイントで、特徴量の数が多くて不要なものを削ぎ落としたい時はL1、相関する特徴量が多い時はL2が向くんだ。さらに両方組み合わせた「ElasticNet」もある。そして正則化の強さを決めるλをどう設定するかも重要で、クロスバリデーションで探索するのが定石だよ。
まとめ:ざっくりこれだけ覚えればOK!
正則化って出てきたら「モデルが過学習しないよう複雑さにペナルティをかける手法」と思えばだいたいOK!
📖 おまけ:英語の意味
「Regularization」 = 正則化・規則化
💬 数学の「正則(regular)=良い性質を持つ」から来ている。機械学習ではTikhonovが考案したL2が有名