【ないーぶべいず】

ナイーブベイズ とは?

💡 おめでたいほど単純な仮定なのに、なぜか意外とよく当たる分類器
📌 このページのポイント
ナイーブベイズ: スパム判定の例 メール 「無料」「当選」 「今すぐ」 含まれる単語を分析 ナイーブベイズ分類器 P(スパム|「無料」)= 高 P(スパム|「当選」)= 高 各単語は独立と仮定 スパム 95% 正常 5% ナイーブ(素朴)な仮定: 「無料」と「当選」は独立して出現すると仮定 現実にはスパムでは共起しやすいが、この仮定でもうまく分類できる メリット 高速・少データでも動く・シンプル デメリット 独立仮定が不正確な場合もある
ナイーブベイズのイメージ
ひよこ ひよこ

ナイーブベイズって、名前に『ナイーブ(素朴)』ってついてるけど、バカにしてるの?

ペンギン先生 ペンギン先生

ちょっとからかった名前だよね。『すべての特徴が互いに独立している』という、現実にはありえないくらい単純な仮定を置くからナイーブ(世間知らず)と呼ばれているんだ

ひよこ ひよこ

そんな雑な仮定で大丈夫なの?

ペンギン先生 ペンギン先生

それが面白いところで、理論的にはおかしい仮定なのに実際にはかなり良い結果が出るんだよ。スパムメールの判定なんかは今でもナイーブベイズが使われていることがあるんだ

ひよこ ひよこ

スパムフィルターで使われてるんだ!どういう仕組みなの?

ペンギン先生 ペンギン先生

メールに含まれる各単語の出現確率から、そのメールがスパムかどうかを計算するんだ。『無料』『当選』みたいな単語が多ければスパムの確率が高くなる、というシンプルな仕組みだよ

ひよこ ひよこ

今は深層学習が主流だよね。もう使われてないのかな?

ペンギン先生 ペンギン先生

いや、今でも現役だよ。学習が超高速で、データが少なくてもそこそこ動くから、まずナイーブベイズで試してみてから深層学習に進む、というのが定番のアプローチだね。ベースラインとしてとても優秀なんだよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ナイーブベイズ」って出てきたら「シンプルだけど実用的な確率ベースの分類器」と思えればだいたいOK!
📖 おまけ:英語の意味
「Naive Bayes」 = 素朴なベイズ
💬 naive(素朴な、世間知らずな)という名前は、特徴量の独立性という非現実的な仮定に由来するんだよ
← 用語集にもどる