【きょうかがくしゅう】

強化学習 とは?

💡 試行錯誤でベストを見つける「AIの冒険家」
📌 このページのポイント
強化学習:Reinforcement Learning エージェント 方策 π(s,a) 行動を決める主体 環境 Environment 外部の世界 行動 a(t) 状態 s(t+1) 報酬 r(t) ↻ このループを繰り返し、累積報酬を最大化する方策を学習 ① 状態を観測 → ② 行動を選択 → ③ 環境が変化 → ④ 報酬を受け取る → ①に戻る 用途例:ゲームAI・ロボット制御・自動運転・推薦システム
試行錯誤を通じて最適な行動を学ぶ強化学習の仕組み
ひよこ ひよこ

教師あり学習とどう違うの?

ペンギン先生 ペンギン先生

教師あり学習は「この入力にはこの正解」という答え付きのデータで学ぶけど、強化学習は正解を直接教えてもらえないんだ。代わりに「良い行動をしたら報酬が増える」というフィードバックだけで、自分で最善の行動を見つけ出すんだよ。

ひよこ ひよこ

ゲームAIに使われてるって聞いたけど?

ペンギン先生 ペンギン先生

そうだよ。AlphaGoが囲碁のプロ棋士に勝ったのも強化学習のおかげだし、Atariのゲームを人間以上にプレイするAIも強化学習で作られた。ゲームは「スコアを上げる=報酬を最大化する」と自然に定義できるから、強化学習との相性がとても良いんだ。

ひよこ ひよこ

RLHFって何?

ペンギン先生 ペンギン先生

Reinforcement Learning from Human Feedback(人間のフィードバックによる強化学習)の略だよ。ChatGPTなどの大規模言語モデルで、人間が「この回答は良い・悪い」と評価したデータを使って報酬モデルを作り、それを使って強化学習する手法なんだ。AIの回答を人間好みに調整するのに使われているよ。

ひよこ ひよこ

強化学習ってゲーム以外にも使えるの?

ペンギン先生 ペンギン先生

たくさん使われているよ。ロボットの歩行制御、自動運転の意思決定、データセンターの冷却システムの最適化(Googleが実際にやっている)、さらには薬の分子設計にも応用されているんだ。「試行錯誤で最適な行動を学ぶ」というフレームワークは驚くほど応用範囲が広いよ。

ひよこ ひよこ

報酬の設計が難しそうだけど、どうやって決めるの?

ペンギン先生 ペンギン先生

それが強化学習で最も難しい部分と言われている「報酬設計問題」だよ。報酬を不適切に設計すると、人間が意図しない方法で報酬を最大化する「報酬ハッキング」が起きる。ボートレースのゲームで「チェックポイントを通過で報酬」にしたら、AIがゴールせずにチェックポイントをぐるぐる回り続けた、という有名な失敗例があるんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「強化学習」って出てきたら「報酬を頼りに試行錯誤しながら最善の行動を学ぶ機械学習の手法だな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Reinforcement Learning」 = 強化による学習
💬 「Reinforcement(強化・補強)」は心理学用語で「行動を強化する報酬や罰」のこと。動物の行動学習の研究がルーツだよ
← 用語集にもどる