【たたみこみ】
畳み込み とは?
💡 虫メガネでなぞるように、データから模様を見つけ出す魔法のフィルタ
📌 このページのポイント
畳み込みって、何を畳み込んでるの?
小さなフィルタ(たとえば3x3のマス)を画像の上でスライドさせながら、フィルタと重なった部分の数値をかけ算して足し合わせるんだ。フィルタを画像に「畳み込む」ように重ねるからこの名前なんだよ
それで何がわかるの?
フィルタの値のパターンによって、縦のエッジ、横のエッジ、斜めの線など特定の模様に反応するんだ。写真の中の輪郭や質感を自動的に見つけ出せるんだよ。層を深くすると「エッジ→模様→顔のパーツ→顔全体」のように抽象度が上がっていくんだ
フィルタの値は人間が決めるの?
昔の画像処理ではエッジ検出フィルタなどを人間が設計していたけど、CNNでは学習で自動的に最適なフィルタの値を見つけるんだ。これが手作業から解放された革命的なポイントだね
画像以外でも使われるの?
もちろん。音声を波形データとして1次元の畳み込みで処理したり、テキストに対して使うこともあるよ。最近はTransformerに主役を奪われがちだけど、Vision Transformerでもパッチ分割に畳み込みを組み合わせるケースがあって、まだまだ現役の基盤技術だよ
まとめ:ざっくりこれだけ覚えればOK!
「畳み込み」って出てきたら「フィルタをスライドさせて特徴を取り出す操作」と思えればだいたいOK!
📖 おまけ:英語の意味
「Convolution」 = 畳み込み
💬 数学用語で2つの関数を重ね合わせて積分する演算のこと。信号処理の分野から来ていて、フィルタを畳み込む(折り重ねる)イメージが名前の由来だよ