【きょうかがくしゅう】
強化学習 とは?
💡 試行錯誤でベストを見つける「AIの冒険家」
📌 このページのポイント
教師あり学習とどう違うの?
教師あり学習は「この入力にはこの正解」という答え付きのデータで学ぶけど、強化学習は正解を直接教えてもらえないんだ。代わりに「良い行動をしたら報酬が増える」というフィードバックだけで、自分で最善の行動を見つけ出すんだよ。
ゲームAIに使われてるって聞いたけど?
そうだよ。AlphaGoが囲碁のプロ棋士に勝ったのも強化学習のおかげだし、Atariのゲームを人間以上にプレイするAIも強化学習で作られた。ゲームは「スコアを上げる=報酬を最大化する」と自然に定義できるから、強化学習との相性がとても良いんだ。
RLHFって何?
強化学習ってゲーム以外にも使えるの?
報酬の設計が難しそうだけど、どうやって決めるの?
それが強化学習で最も難しい部分と言われている「報酬設計問題」だよ。報酬を不適切に設計すると、人間が意図しない方法で報酬を最大化する「報酬ハッキング」が起きる。ボートレースのゲームで「チェックポイントを通過で報酬」にしたら、AIがゴールせずにチェックポイントをぐるぐる回り続けた、という有名な失敗例があるんだ。
まとめ:ざっくりこれだけ覚えればOK!
「強化学習」って出てきたら「報酬を頼りに試行錯誤しながら最善の行動を学ぶ機械学習の手法だな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Reinforcement Learning」 = 強化による学習
💬 「Reinforcement(強化・補強)」は心理学用語で「行動を強化する報酬や罰」のこと。動物の行動学習の研究がルーツだよ