【じげんさくげん】
次元削減 とは?
💡 データの「本質」だけを残して圧縮する技術
📌 このページのポイント
- 多数の変数を持つデータを少数の変数に圧縮する技術
- 重要な情報をなるべく保ちながらデータをシンプルにする
- 高次元データの可視化(2次元・3次元に落とす)に活用される
- PCAやt-SNEなどの代表的な手法がある
次元ってデータの世界ではどういう意味なの?
データの持つ特徴量の数のことだよ。例えば「身長」と「体重」の2つで人を表すなら2次元データ。でも実際のデータは数百〜数万の特徴量を持つことがあって、例えば画像だと各ピクセルが1つの次元になるから、100x100の画像は1万次元のデータなんだ。
なんで次元を減らす必要があるの?
次元が多すぎると「次元の呪い」と呼ばれる問題が起きるんだ。次元が増えるとデータがスカスカになって、機械学習モデルがうまく学習できなくなる。100次元の空間を十分にカバーするには天文学的な量のデータが必要になるからね。計算コストも次元が増えるほど膨大になるよ。
情報を捨てて大丈夫なの?
いい質問だね。実は多くの場合、たくさんの変数があっても本当に重要な情報は少数の変数で表現できることが多いんだ。例えばアンケートの100項目が実は「満足度」「コスパ」「デザイン」の3つの軸に集約できたりする。次元削減はそういう隠れた構造を見つけ出す作業でもあるよ。
次元削減の難しいポイントって何?
まとめ:ざっくりこれだけ覚えればOK!
「次元削減」って出てきたら「たくさんの変数を少ない変数にまとめてデータを扱いやすくする技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Dimensionality Reduction」 = 次元の削減
💬 Dimensionalityは「次元数」、Reductionは「削減」。データの持つ次元数を減らすことだよ