【らんだむふぉれすと】

ランダムフォレスト とは?

💡 大勢の決定木に多数決させる「AIの民主主義」
📌 このページのポイント
ランダムフォレスト — アンサンブル学習 学習データ ランダム抽出 決定木 1 特徴量A,C 決定木 2 特徴量B,D 決定木 3 特徴量A,E … N本の木 多数決 → 猫! 過学習しにくい 多様な木で汎化 高い精度 多数決で安定 並列処理可能 各木は独立
ランダムフォレストによるアンサンブル学習のイメージ
ひよこ ひよこ

決定木がたくさんあるとなんで精度が上がるの?

ペンギン先生 ペンギン先生

「群衆の知恵」っていう考え方だよ。一人の専門家の意見よりも、多くの普通の人の平均が正確なことがあるよね。それと同じで、ちょっと精度の低い木でも、バラバラなエラーをする木をたくさん集めると、全体として正解率が上がるんだ。

ひよこ ひよこ

なんでランダムにするの?わざと精度を下げてるの?

ペンギン先生 ペンギン先生

逆説的だけど大事なポイントだよ。全部の木が同じデータで学習すると同じエラーをしてしまって、多数決に意味がなくなる。ランダムにすることで各木が違う側面を学ぶから、エラーが分散して全体のエラーが減るんだ。

ひよこ ひよこ

ランダムフォレストはどんな問題が苦手なの?

ペンギン先生 ペンギン先生

高次元のデータや、関係性が複雑なデータだとディープラーニングに負けることが多いね。あと「なぜその予測をしたか」の説明が決定木より難しくなる。100本の木の多数決だと、どの木がどう判断したかを追いきれないから。

ひよこ ひよこ

バギングとランダムフォレストって何が違うの?

ペンギン先生 ペンギン先生

ランダムフォレストはバギングを発展させた手法なんだ。バギングはデータをランダムにサンプリングして複数のモデルを作るけど、各モデルが全ての特徴(列)を使う。ランダムフォレストはそこにさらに「各分岐で使う特徴もランダムに絞る」というひと工夫を加えているんだ。この特徴のサブサンプリングによって木どうしの相関が下がって多様性が生まれる。相関の高い木を多数決させてもあまり意味がないけど、バラバラな木なら多数決が有効に機能する、というのが肝なんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ランダムフォレスト」って出てきたら「たくさんの決定木に投票させて答えを決める安定したAIモデルだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Random Forest」 = ランダムな森
💬 ランダムに作られた決定木(木)がたくさん集まって森(Forest)を作るイメージから名付けられたよ
← 用語集にもどる