【じげんさくげん】

次元削減 とは?

💡 データの「本質」だけを残して圧縮する技術
📌 このページのポイント
高次元空間(3D) z x y 3次元(特徴量3つ) PCA / t-SNE 3D → 2D 低次元空間(2D) PC2 PC1 クラスA クラスB クラスC ✓ パターンが保持される PCA t-SNE UMAP ← 代表的な手法
次元削減のイメージ
ひよこ ひよこ

次元ってデータの世界ではどういう意味なの?

ペンギン先生 ペンギン先生

データの持つ特徴量の数のことだよ。例えば「身長」と「体重」の2つで人を表すなら2次元データ。でも実際のデータは数百〜数万の特徴量を持つことがあって、例えば画像だと各ピクセルが1つの次元になるから、100x100の画像は1万次元のデータなんだ。

ひよこ ひよこ

なんで次元を減らす必要があるの?

ペンギン先生 ペンギン先生

次元が多すぎると「次元の呪い」と呼ばれる問題が起きるんだ。次元が増えるとデータがスカスカになって、機械学習モデルがうまく学習できなくなる。100次元の空間を十分にカバーするには天文学的な量のデータが必要になるからね。計算コストも次元が増えるほど膨大になるよ。

ひよこ ひよこ

情報を捨てて大丈夫なの?

ペンギン先生 ペンギン先生

いい質問だね。実は多くの場合、たくさんの変数があっても本当に重要な情報は少数の変数で表現できることが多いんだ。例えばアンケートの100項目が実は「満足度」「コスパ」「デザイン」の3つの軸に集約できたりする。次元削減はそういう隠れた構造を見つけ出す作業でもあるよ。

ひよこ ひよこ

次元削減の難しいポイントって何?

ペンギン先生 ペンギン先生

「何次元まで減らすのが最適か」の判断が意外と難しいんだ。減らしすぎると大事な情報が失われるし、減らさなすぎると効果がない。PCAなら「累積寄与率95%」みたいな基準で決めることが多いけど、その95%という数字に絶対的な根拠はない。もっと根深い問題として、線形的な次元削減では捉えられない非線形な構造がデータに潜んでいることがあって、PCAでは情報を保てるように見えても実は大事なパターンが潰れてしまっていた、ということが起きる。データの本質的な構造(多様体)をどう見極めるかは、データサイエンティストの経験と勘に頼る部分がまだ大きいんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「次元削減」って出てきたら「たくさんの変数を少ない変数にまとめてデータを扱いやすくする技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Dimensionality Reduction」 = 次元の削減
💬 Dimensionalityは「次元数」、Reductionは「削減」。データの持つ次元数を減らすことだよ
← 用語集にもどる