【とらんすふぉーまー】

トランスフォーマー とは?

💡 現代AIの「心臓部」となったニューラルネットワーク構造
📌 このページのポイント
入力 エンコーダ Self-Attention 自己注意機構 Feed Forward 全結合層 ×N + Add & Norm(各層後) 文脈 デコーダ Masked Self-Attention マスク付き自己注意 Cross-Attention エンコーダ出力を参照 Feed Forward 全結合層 ×N 出力
Transformerの基本構造
ひよこ ひよこ

トランスフォーマーって変形ロボットじゃなくてAIのこと?

ペンギン先生 ペンギン先生

AIの世界ではそう!2017年にGoogleの研究者たちが発表した論文のタイトルが「Attention is All You Need(アテンションさえあれば何でもできる)」で、その中で提案されたニューラルネットワークの設計なんだ。これがAIの歴史を変えたんだよ。

ひよこ ひよこ

以前はどんな仕組みが使われてたの?

ペンギン先生 ペンギン先生

RNN再帰ニューラルネットワーク)というモデルが主流だったんだ。文章を最初から順番に処理していくのが特徴だけど、文章が長くなると前の情報を忘れやすいし、順番に処理するから並列計算が難しかった。トランスフォーマーはそれを一気に解決したんだよ。

ひよこ ひよこ

何がそんなにすごいの?

ペンギン先生 ペンギン先生

「全部の単語を同時に見ながら関係性を計算できる」ことだよ。「彼女は猫を飼っていて、それをとても愛している」の「それ」が「猫」を指すと理解するには、文章の中の離れた単語の関係を把握しないといけない。トランスフォーマーのアテンション機構がまさにそれを可能にするんだ。

ひよこ ひよこ

GPTBERTって両方トランスフォーマーなの?でも使い方が違うって聞いたけど?

ペンギン先生 ペンギン先生

両方ともトランスフォーマーをベースにしているけど、使う部分が違うんだ。トランスフォーマーはエンコーダー(文章を理解する部分)とデコーダー(文章を生成する部分)に分かれている。BERTはエンコーダー部分だけを使って「文章の意味を深く理解する」用途に特化している。GPTはデコーダー部分だけを使って「次の単語を予測しながら文章を生成する」ことに特化している。同じ土台でも「どの部分を使うか」で得意なことが変わるのが面白いところだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「トランスフォーマー」って出てきたら「現代の言語AIの土台になっているモデルの設計図」と思えればだいたいOK!
📖 おまけ:英語の意味
「Transformer」 = 変換するもの
💬 電気のトランスフォーマー(変圧器)と同じ言葉。入力を別の表現に「変換」するという意味合いで名付けられたよ
← 用語集にもどる