ランダムフォレストとは何ですか？

大量の決定木をランダムに作って多数決で答えを出すアンサンブル学習の手法。単体の決定木より精度が高く過学習にも強い。

ランダムフォレストのポイントは？

複数の決定木を組み合わせて精度を上げるアンサンブル手法。各木はランダムに選んだデータと特徴で学習する。多数決（分類）や平均（回帰）で最終予測を出す。過学習に強く、実務でよく使われる安定したモデル

【らんだむふぉれすと】

ランダムフォレストとは？

💡 大勢の決定木に多数決させる「AIの民主主義」

📌 このページのポイント

複数の決定木を組み合わせて精度を上げるアンサンブル手法
各木はランダムに選んだデータと特徴で学習する
多数決（分類）や平均（回帰）で最終予測を出す
過学習に強く、実務でよく使われる安定したモデル

ランダムフォレストによるアンサンブル学習のイメージ

ひよこ

決定木がたくさんあるとなんで精度が上がるの？

ペンギン先生

「群衆の知恵」っていう考え方だよ。一人の専門家の意見よりも、多くの普通の人の平均が正確なことがあるよね。それと同じで、ちょっと精度の低い木でも、バラバラなエラーをする木をたくさん集めると、全体として正解率が上がるんだ。

ひよこ

なんでランダムにするの？わざと精度を下げてるの？

ペンギン先生

逆説的だけど大事なポイントだよ。全部の木が同じデータで学習すると同じエラーをしてしまって、多数決に意味がなくなる。ランダムにすることで各木が違う側面を学ぶから、エラーが分散して全体のエラーが減るんだ。

ひよこ

ランダムフォレストはどんな問題が苦手なの？

ペンギン先生

高次元のデータや、関係性が複雑なデータだとディープラーニングに負けることが多いね。あと「なぜその予測をしたか」の説明が決定木より難しくなる。100本の木の多数決だと、どの木がどう判断したかを追いきれないから。

ひよこ

バギングとランダムフォレストって何が違うの？

ペンギン先生

ランダムフォレストはバギングを発展させた手法なんだ。バギングはデータをランダムにサンプリングして複数のモデルを作るけど、各モデルが全ての特徴（列）を使う。ランダムフォレストはそこにさらに「各分岐で使う特徴もランダムに絞る」というひと工夫を加えているんだ。この特徴のサブサンプリングによって木どうしの相関が下がって多様性が生まれる。相関の高い木を多数決させてもあまり意味がないけど、バラバラな木なら多数決が有効に機能する、というのが肝なんだよ。

まとめ：ざっくりこれだけ覚えればOK！

「ランダムフォレスト」って出てきたら「たくさんの決定木に投票させて答えを決める安定したAIモデルだな」と思えればだいたいOK！

📖 おまけ：英語の意味

「Random Forest」＝ランダムな森

💬 ランダムに作られた決定木（木）がたくさん集まって森（Forest）を作るイメージから名付けられたよ

← 用語集にもどる

ランダムフォレスト とは？

ランダムフォレストとは？