【たたみこみ】

畳み込み とは?

💡 虫メガネでなぞるように、データから模様を見つけ出す魔法のフィルタ
📌 このページのポイント
畳み込み演算のイメージ 入力 1 0 1 0 0 0 1 1 0 1 1 0 0 1 0 0 1 0 1 1 1 0 1 0 0 * フィルタ (3x3) 1 0 1 0 1 0 1 0 1 = 特徴マップ 4 3 2 2 3 3 2 2 3 スライド CNNの階層的特徴抽出 エッジ テクスチャ パーツ 物体全体 層が深くなるほど抽象的な特徴を捉える
畳み込み演算と階層的特徴抽出のイメージ
ひよこ ひよこ

畳み込みって、何を畳み込んでるの?

ペンギン先生 ペンギン先生

小さなフィルタ(たとえば3x3のマス)を画像の上でスライドさせながら、フィルタと重なった部分の数値をかけ算して足し合わせるんだ。フィルタを画像に「畳み込む」ように重ねるからこの名前なんだよ

ひよこ ひよこ

それで何がわかるの?

ペンギン先生 ペンギン先生

フィルタの値のパターンによって、縦のエッジ、横のエッジ、斜めの線など特定の模様に反応するんだ。写真の中の輪郭や質感を自動的に見つけ出せるんだよ。層を深くすると「エッジ→模様→顔のパーツ→顔全体」のように抽象度が上がっていくんだ

ひよこ ひよこ

フィルタの値は人間が決めるの?

ペンギン先生 ペンギン先生

昔の画像処理ではエッジ検出フィルタなどを人間が設計していたけど、CNNでは学習で自動的に最適なフィルタの値を見つけるんだ。これが手作業から解放された革命的なポイントだね

ひよこ ひよこ

画像以外でも使われるの?

ペンギン先生 ペンギン先生

もちろん。音声を波形データとして1次元の畳み込みで処理したり、テキストに対して使うこともあるよ。最近はTransformerに主役を奪われがちだけど、Vision Transformerでもパッチ分割に畳み込みを組み合わせるケースがあって、まだまだ現役の基盤技術だよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「畳み込み」って出てきたら「フィルタをスライドさせて特徴を取り出す操作」と思えればだいたいOK!
📖 おまけ:英語の意味
「Convolution」 = 畳み込み
💬 数学用語で2つの関数を重ね合わせて積分する演算のこと。信号処理の分野から来ていて、フィルタを畳み込む(折り重ねる)イメージが名前の由来だよ
← 用語集にもどる