【ブイアイティー(ビジョントランスフォーマー)】

ViT(Vision Transformer) とは?

公開:
💡 画像を「単語の並び」として読み解く革命的な視覚AI
📌 このページのポイント
ViT(Vision Transformer)の処理フロー ①元画像 16×16px パッチ分割 ②パッチ埋め込み 各パッチ=1トークン ③Transformerエンコーダー Multi-Head Attention Feed Forward Network ④CLSトークン出力 [CLS] token 画像全体の 特徴ベクトル ⑤分類結果 車… アテンション機構で画像全体の関係を一度に把握 CNNが局所的に処理するのに対し、離れたパッチ同士の関連も捉えられる 例:猫の耳と尾の関係 / 文字と背景の関係 大規模データで事前学習するとCNNを超える精度を発揮
ViTは画像をパッチに分割しTransformerで処理する視覚AIモデル
ひよこ ひよこ
ペンギン先生、ViTって普通の画像AIと何が違うの?
ペンギン先生 ペンギン先生
従来の画像AIはCNN畳み込みニューラルネットワーク)という手法を使ってたんだ。ViTはそれとは全く違って、言語AIのTransformerをそのまま画像に使う発想で生まれたよ。
ひよこ ひよこ
画像をどうやってTransformerで処理するの?文章じゃないのに。
ペンギン先生 ペンギン先生
ViTは画像を16×16ピクセルの小さなブロック(パッチ)に切り分けて、各パッチをひとつの「単語」として扱うんだ。パッチの並びをTransformerに入力することで、画像を文章のように処理できるよ。
ひよこ ひよこ
CNNと比べてどんなメリットがあるの?
ペンギン先生 ペンギン先生
CNNは近くのピクセルしか直接参照できないんだけど、ViTはアテンション機構のおかげで画像の離れた部分の関係も一度に捉えられるんだ。大きな文脈を理解するのが得意だよ。
ひよこ ひよこ
デメリットはないの?
ペンギン先生 ペンギン先生
学習に大量のデータが必要という弱点があるよ。CNNは少ないデータでもある程度学習できるけど、ViTはデータが少ないと性能が出にくいんだ。大規模事前学習が前提の技術なんだよ。
ひよこ ひよこ
実際にどんなところで使われてるの?
ペンギン先生 ペンギン先生
CLIPやGPT-4V・Geminiなどマルチモーダルモデルの画像エンコーダーとして広く使われてるよ。医療画像診断や自動運転の物体認識にも応用が広がってて、現代の視覚AI研究の中心的な存在なんだ。
ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「ViT」って出てきたら「Transformerで画像を認識するモデル」と思えばだいたいOK!
📖 おまけ:英語の意味
「Vision Transformer」 = 視覚トランスフォーマー
💬 Vision(視覚・画像認識)にTransformer(言語モデルの構造)を組み合わせた名前だよ
← 用語集にもどる