【あてんしょんきこう】

アテンション機構 とは?

💡 AIが「ここが重要!」と判断する注意の仕組み
📌 このページのポイント
アテンション機構(Attention Mechanism) 入力トークン 座る Q K V 線形変換 アテンション重み QKᵀ / √d 座る 座る 0.7 0.1 0.2 0.4 0.2 0.4 0.8 0.1 0.1 重み付き 合計 出力 猫' が' 座る' 色の濃さ = アテンションの強さ(どの単語に注目するか) Query Key Value 重みスコア
アテンション機構の仕組み
ひよこ ひよこ

アテンション機構って、どんな問題を解決するために生まれたの?

ペンギン先生 ペンギン先生

翻訳の課題から生まれたんだ。「彼女は市場で古い自転車と傘を売っている女性に会った」という文章を英語に訳すとき、「古い」が「自転車」だけにかかるのか「自転車と傘」両方にかかるのかを正しく判断する必要がある。離れた単語の関係を捉えるためにアテンションが考案されたんだよ。

ひよこ ひよこ

具体的にどうやって「注目度」を計算するの?

ペンギン先生 ペンギン先生

Query・Key・Valueという三つの要素を使うんだ。Queryは「何を探しているか」、Keyは「各単語のラベル」、Valueは「実際の情報」。QueryとKeyの類似度を計算して注目度(ウェイト)を求め、それをValueに掛け合わせて出力を作る。図書館で「この本に関連するものを探して」と検索するイメージだよ。

ひよこ ひよこ

マルチヘッドアテンションってよく聞くけど何が違うの?

ペンギン先生 ペンギン先生

アテンションを並行して複数回計算するんだ。「文法的な関係」「意味的な関係」「主語と目的語の関係」など、異なる種類の関係性を同時に複数の「ヘッド」で捉えて、最後に合わせるんだよ。複数の視点から関係性を見るから、一つのアテンションより豊かな表現が学べるんだ。

ひよこ ひよこ

アテンションの計算量ってどのくらいかかるの?

ペンギン先生 ペンギン先生

これが大規模言語モデルの大きな課題でね。標準的なアテンションは入力の長さをNとしたとき計算量がN²(二乗)になるんだ。文章が2倍長くなると計算が4倍になる。だから長いコンテキストを扱うのに非常にコストがかかる。この問題を解決するために「Sparse Attention(疎なアテンション)」「Flash Attention(効率的なGPUメモリアクセス)」「Linear Attention」など様々な手法が提案されていて、「どうやってN²の壁を破るか」は今でも活発に研究されている重要テーマなんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「アテンション機構」って出てきたら「AIが文章のどこに注目するかを計算する仕組み」と思えればだいたいOK!
📖 おまけ:英語の意味
「Attention Mechanism」 = 注意機構
💬 人間が文章を読むとき重要な部分に「注意(attention)」を集中させるのと同じ考え方からきているよ
← 用語集にもどる