【くらすたりんぐ】
クラスタリング とは?
💡 似たもの同士を自動でグループ化する「仕分けロボット」
📌 このページのポイント
クラスタリングって分類と何が違うの?
k-meansってどうやって動くの?
① k個の中心点をランダムに置く ② 各データを一番近い中心点のグループに入れる ③ 各グループの平均を新しい中心点にする ④ 変化がなくなるまで②③を繰り返す、という手順だよ。シンプルだけど実用的でよく使われるよ。
クラスタリングって何に役立つの?
k-meansって形が球形じゃないクラスターはうまく見つけられないって本当?
本当で、k-meansは「円形・球形のかたまり」を前提としているんだ。三日月形や輪っか状に並んだデータだと全然うまくいかない。そういった複雑な形のクラスターには、密度ベースのDBSCANや、カーネル法を使ったSpectral Clusteringが向いている。さらにk-meansは初期の中心点の置き方でも結果が変わるから、k-means++という改良版で初期値を工夫したり、複数回試して一番良い結果を使ったりするのが実務の常識なんだよ。
まとめ:ざっくりこれだけ覚えればOK!
「クラスタリング」って出てきたら「ラベルなしでデータを似たもの同士に自動でグループ化する技術だな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Clustering」 = 集まり・固まり(をつくること)
💬 Clusterは「ぶどうの房」や「星団」のように「同じものが集まったかたまり」という意味だよ