【けーみーんずほう】
k-means法(k平均法) とは?
💡 データを自動でk個のグループに仕分ける分類アルゴリズム
📌 このページのポイント
k-meansってどういうしくみなの?
すごくシンプルなアルゴリズムだよ。まず適当にk個の点を置く。次に各データを一番近い点のグループに割り振る。そしたら各グループの中心を計算し直す。これを「グループ分けが変わらなくなるまで」繰り返すんだ。たったこれだけで、データが自然なグループに分かれるよ。
具体的にはどう使われてるの?
マーケティングでの顧客セグメンテーションが有名だね。購買金額・購買頻度・最終購買日の3つのデータで顧客をグループ分けすると「優良顧客」「休眠顧客」「新規顧客」のように分かれるんだ。それぞれのグループに合ったキャンペーンを打てるわけだよ。
kの数はどうやって決めるの?
これが実は一番悩むところなんだ。「エルボー法」という方法がよく使われていて、kを1から順に増やしていって、クラスタ内の散らばり具合がガクッと下がるところ(肘の形に見える点)をkとして選ぶ。でも明確な肘が見えないことも多くて、最終的にはビジネスの文脈で判断することが多いよ。
k-meansの弱点ってある?
まとめ:ざっくりこれだけ覚えればOK!
「k-means」って出てきたら「データをk個のグループに自動で分ける手法のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「k-means」 = k個の平均
💬 kはグループの数、meansは「平均」。各グループの平均(中心点)を使ってデータを分類することからこの名前がついたよ