【ぴーしーえー】

PCA(主成分分析) とは?

💡 データの「一番大事な軸」を見つける統計テクニック
📌 このページのポイント
PCA(主成分分析) 元の2次元データ PC1 分散大 PC2 分散小 射影 PC1に射影(1次元) 情報を 保ちつつ 次元削減 分散が最大の方向(主成分)にデータを射影して次元を削減する
データの分散を最大限に保ちながら次元を削減する主成分分析
ひよこ ひよこ

PCAって具体的に何をするの?

ペンギン先生 ペンギン先生

簡単に言うと、データを一番よく説明できる「軸」を見つけるんだ。例えば国語・数学・英語・理科・社会の5科目のテスト結果があったとして、PCAを使うと「文系力」と「理系力」の2つの軸でほとんどの情報を説明できるかもしれない。5次元のデータを2次元に圧縮できるわけだね。

ひよこ ひよこ

なんで分散が大きい方向を選ぶの?

ペンギン先生 ペンギン先生

分散が大きい=データのばらつきが大きい=情報量が多いと考えるからだよ。もし全員がほぼ同じ点数の科目があったら、その科目は個人を区別する情報をほとんど持っていないよね。逆にばらつきが大きい科目は個人差がわかる、つまり情報が詰まっているんだ。

ひよこ ひよこ

PCAはどこで使われているの?

ペンギン先生 ペンギン先生

遺伝子解析で数万個の遺伝子の発現データを2次元にして可視化したり、画像処理で顔画像の特徴を圧縮する「固有顔(Eigenface)」に使ったり、金融でたくさんの経済指標を少数の因子にまとめたりと、幅広い分野で使われているよ。

ひよこ ひよこ

PCAの注意点ってある?

ペンギン先生 ペンギン先生

PCAは「線形な関係」しか捉えられないのが最大の制約なんだ。例えばデータがドーナツ型に分布している場合、PCAで2次元に落とすと構造がつぶれてしまう。こういう場合はカーネルPCAやt-SNE、UMAPのような非線形手法が必要になる。あと意外と見落とされがちなのが、PCAはスケールに敏感だということ。身長(cm)と体重(kg)を一緒にPCAにかけると、単位の大きい身長の影響が支配的になる。だから事前に標準化(平均0、分散1に揃える)が必要なんだけど、この前処理を忘れて「PCAの結果がおかしい」と悩んでいるケースは実務でも本当に多いよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「PCA」って出てきたら「データの分散が大きい方向を見つけて次元を減らす手法のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「PCA(Principal Component Analysis)」 = 主成分分析
💬 Principalは「主要な」、Componentは「成分」、Analysisは「分析」。主要な成分を見つけ出す分析手法だよ
← 用語集にもどる