【くらすたりんぐ】

クラスタリング とは?

💡 似たもの同士を自動でグループ化する「仕分けロボット」
📌 このページのポイント
クラスタリング(K-means法のイメージ) クラスタリング前 分類 クラスタリング後 グループA グループB グループC 似た特徴を持つデータを自動的にグループ分けする(教師なし学習)
クラスタリングのイメージ
ひよこ ひよこ

クラスタリングって分類と何が違うの?

ペンギン先生 ペンギン先生

大きな違いは「正解ラベルがあるかどうか」だよ。分類は「これはスパム、これは正常」と答えが決まっている。クラスタリングは「似たものを自動でまとめる」だけで、グループに何という名前をつけるかは人間が後から決めるんだ。

ひよこ ひよこ

k-meansってどうやって動くの?

ペンギン先生 ペンギン先生

① k個の中心点をランダムに置く ② 各データを一番近い中心点のグループに入れる ③ 各グループの平均を新しい中心点にする ④ 変化がなくなるまで②③を繰り返す、という手順だよ。シンプルだけど実用的でよく使われるよ。

ひよこ ひよこ

クラスタリングって何に役立つの?

ペンギン先生 ペンギン先生

たとえばECサイトで「買い物の傾向が似ているお客さん」をグループ化して、グループごとに違うメールを送るとかね。他にも「いつもと違う通信パターン」を見つける異常検知にも使われるよ。

ひよこ ひよこ

k-meansって形が球形じゃないクラスターはうまく見つけられないって本当?

ペンギン先生 ペンギン先生

本当で、k-meansは「円形・球形のかたまり」を前提としているんだ。三日月形や輪っか状に並んだデータだと全然うまくいかない。そういった複雑な形のクラスターには、密度ベースのDBSCANや、カーネル法を使ったSpectral Clusteringが向いている。さらにk-meansは初期の中心点の置き方でも結果が変わるから、k-means++という改良版で初期値を工夫したり、複数回試して一番良い結果を使ったりするのが実務の常識なんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「クラスタリング」って出てきたら「ラベルなしでデータを似たもの同士に自動でグループ化する技術だな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Clustering」 = 集まり・固まり(をつくること)
💬 Clusterは「ぶどうの房」や「星団」のように「同じものが集まったかたまり」という意味だよ
← 用語集にもどる