【ぴーしーえー】
PCA(主成分分析) とは?
💡 データの「一番大事な軸」を見つける統計テクニック
📌 このページのポイント
PCAって具体的に何をするの?
簡単に言うと、データを一番よく説明できる「軸」を見つけるんだ。例えば国語・数学・英語・理科・社会の5科目のテスト結果があったとして、PCAを使うと「文系力」と「理系力」の2つの軸でほとんどの情報を説明できるかもしれない。5次元のデータを2次元に圧縮できるわけだね。
なんで分散が大きい方向を選ぶの?
分散が大きい=データのばらつきが大きい=情報量が多いと考えるからだよ。もし全員がほぼ同じ点数の科目があったら、その科目は個人を区別する情報をほとんど持っていないよね。逆にばらつきが大きい科目は個人差がわかる、つまり情報が詰まっているんだ。
PCAはどこで使われているの?
遺伝子解析で数万個の遺伝子の発現データを2次元にして可視化したり、画像処理で顔画像の特徴を圧縮する「固有顔(Eigenface)」に使ったり、金融でたくさんの経済指標を少数の因子にまとめたりと、幅広い分野で使われているよ。
PCAの注意点ってある?
まとめ:ざっくりこれだけ覚えればOK!
「PCA」って出てきたら「データの分散が大きい方向を見つけて次元を減らす手法のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「PCA(Principal Component Analysis)」 = 主成分分析
💬 Principalは「主要な」、Componentは「成分」、Analysisは「分析」。主要な成分を見つけ出す分析手法だよ