【ブイアイティー(ビジョントランスフォーマー)】
ViT(Vision Transformer) とは?
公開:
💡 画像を「単語の並び」として読み解く革命的な視覚AI
📌 このページのポイント
ペンギン先生、ViTって普通の画像AIと何が違うの?
画像をどうやってTransformerで処理するの?文章じゃないのに。
ViTは画像を16×16ピクセルの小さなブロック(パッチ)に切り分けて、各パッチをひとつの「単語」として扱うんだ。パッチの並びをTransformerに入力することで、画像を文章のように処理できるよ。
CNNと比べてどんなメリットがあるの?
デメリットはないの?
実際にどんなところで使われてるの?
まとめ:ざっくりこれだけ覚えればOK!
「ViT」って出てきたら「Transformerで画像を認識するモデル」と思えばだいたいOK!
📖 おまけ:英語の意味
「Vision Transformer」 = 視覚トランスフォーマー
💬 Vision(視覚・画像認識)にTransformer(言語モデルの構造)を組み合わせた名前だよ