【ぶんるい】

分類(機械学習) とは?

💡 データを決められた箱に仕分ける「自動振り分け機」
📌 このページのポイント
分類(Classification)のイメージ 特徴量1 特徴量2 決定境界 カテゴリA カテゴリB --- 決定境界で分離
分類:データを決定境界で2つ以上のカテゴリに分ける
ひよこ ひよこ

分類って何を「分類」するの?

ペンギン先生 ペンギン先生

データを「どのグループに属するか」に分類するんだよ。たとえばメールを「スパム」か「正常」に分類したり、写真を「猫」「犬」「鳥」に分類したり。答えがカテゴリになる問題は全部分類だね。

ひよこ ひよこ

回帰と分類って何で使い分けるの?

ペンギン先生 ペンギン先生

答えの種類で決まるよ。「値段はいくら?」「明日の気温は?」みたいに答えが連続した数値なら回帰、「病気あり?なし?」「犬か猫か鳥か?」みたいに答えがカテゴリなら分類を使うんだ。

ひよこ ひよこ

おもしろい!「正解率」を見れば分類の良し悪しが分かる?

ペンギン先生 ペンギン先生

実はそれが落とし穴でね。たとえばがん検診で「99%は正常」なデータの場合、全員正常と予測するだけで正解率99%になっちゃう。でもそれは全くダメなモデルだよね。だから適合率再現率F1スコアといった指標が必要なんだよ。

ひよこ ひよこ

多クラス分類って内部的にはどうやってるの?

ペンギン先生 ペンギン先生

面白い話で、多くのアルゴリズムは内部で2クラス問題に変換して解くんだ。代表的な方法が「1対他(One-vs-Rest)」で、クラスが3つあったら「クラスAか否か」「クラスBか否か」「クラスCか否か」という3つの2クラス問題に分解する。もう一つの「1対1(One-vs-One)」はすべての組み合わせのペアを作って多数決する。どちらを使うかはアルゴリズムやデータの性質によって変わるんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「分類(機械学習)」って出てきたら「データをどのカテゴリに入れるか当てる予測タスクのことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Classification」 = 分類・区分
💬 ラテン語のclassisは「クラス・グループ」という意味。データをグループに割り当てる行為がそのまま名前になっているよ
← 用語集にもどる