「Attention Is All You Need」の発明者がOpenAIへ — TransformerがAIを変えた理由
「Attention Is All You Need」を書いた人がOpenAIに移籍したってニュースを見たんだけど、それって何がすごいの?
じゃあ移籍前はどこにいたの?
Transformerって、それ以前のAIと何が違うの?
Transformer以前のAIは「RNN(再帰型ニューラルネットワーク)」を使っていたよ。RNNは文章を1単語ずつ順番に読む仕組みで、「学習が遅い」「長い文章は文脈を保持しにくい」という弱点があった。TransformerはSelf-Attention(自己注意機構)という発想で、全単語の関係を同時に計算できるようにしたんだ。並列処理できて速いし、長い文章でも文脈をしっかりつかめるようになったよ。
Self-Attentionって、具体的に何をしているの?
たとえば「I saw her duck」という文があったとして、「duck」は「アヒル」か「かがむ」か曖昧だよね。Self-Attentionは文中の全単語に「どれだけ注目すべきか」というスコアをつけて、文脈から意味を判定するんだ。「duck」を理解するために「I」「saw」「her」との関係を数値で計算して、最終的な意味を決める。旧来のRNNとTransformerを比較するとこんな違いがあるよ。
「並列化できる」というのが特にポイントで、GPUをフル活用できるようになったことで、巨大モデルを現実的な時間で学習できるようになったんだよ。
| 項目 | RNN/LSTM(旧世代) | Transformer(現在主流) |
|---|---|---|
| 学習の並列化 | 不可(1単語ずつ順次処理) | 可能(全単語を同時処理) |
| 長文の文脈保持 | 苦手(勾配消失問題) | 得意(Attentionで全結合) |
| スケールの伸びしろ | 低い | 高い(パラメータ∝性能) |
| 代表モデル | 旧Google翻訳, Word2Vec | GPT-4, Claude, Gemini |
Transformerが出てから、AIってどう進化してきたの?
ShazeerがOpenAIに移ることで、これからのAIは何か変わりそうなの?
一つの論文がAI産業全体の土台になって、その発明者が9年後に業界を揺るがす移籍をするなんて、すごい話だね!