【ジーピーティー】

GPT とは?

💡 文章の続きを予測する天才「AIの文豪」
📌 このページのポイント
GPT ― Transformerによる次トークン予測 入力トークン列 今日 天気 Transformer Self-Attention機構 文脈を理解して次の単語を予測 次トークン "晴れ" 晴れ: 72% 曇り: 18% 雨: 10% 事前学習 大量のテキストで 言語パターンを学習 GPT = Generative Pre-trained Transformer
GPTの次トークン予測の仕組み
ひよこ ひよこ

GPTってどうやって文章を作るの?

ペンギン先生 ペンギン先生

基本原理はすごくシンプルで「次に来る単語を予測する」の繰り返しなんだ。「今日の天気は」と入れると「晴れ」が来そうだと予測し、「今日の天気は晴れ」から次の「です」を予測し……と一語ずつ生成していくよ。

ひよこ ひよこ

BERTとは何が違うの?

ペンギン先生 ペンギン先生

BERTは文章の「理解」が得意で、GPTは文章の「生成」が得意なんだ。技術的には、BERTはTransformerのエンコーダー(入力を理解する部分)を使い、GPTはデコーダー(出力を生成する部分)を使っている。用途に応じて使い分けるイメージだよ。

ひよこ ひよこ

バージョンが上がるたびに何が変わったの?

ペンギン先生 ペンギン先生

一番わかりやすいのはパラメータ数(モデルの大きさ)の増加だよ。GPT-1は約1億、GPT-2は約15億、GPT-3は約1750億パラメータ。大きくなるほど知識量が増えて、より複雑なタスクをこなせるようになった。GPT-4以降はマルチモーダル対応で画像も扱えるようになったんだ。

ひよこ ひよこ

GPTって嘘をつくことがあるって聞いたけど本当?

ペンギン先生 ペンギン先生

本当だよ。GPTは「次に来そうな単語」を予測しているだけで、真偽を判断しているわけではないんだ。だからもっともらしいけど事実と異なる回答(ハルシネーション)が発生する。特に最新の情報や専門性の高い内容では注意が必要だよ。

ひよこ ひよこ

GPTの学習データってどこから来てるの?

ペンギン先生 ペンギン先生

インターネット上の大量のテキストデータだよ。Webページ・書籍・論文・Wikipediaなどが含まれている。ただし著作権やプライバシーの問題が議論されていて、New York TimesがOpenAIを著作権侵害で提訴した事例もある。学習データの透明性と権利処理は、AI業界全体の大きな課題なんだ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「GPT」って出てきたら「大量のテキストで事前学習した、文章を生成するのが得意な大規模言語モデルだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Generative Pre-trained Transformer」 = 生成的な事前学習済み変換モデル
💬 「Generative(生成する)」「Pre-trained(事前学習済み)」「Transformer(変換器)」の頭文字。テキストを生成できる事前学習済みのTransformerモデルという意味だよ
← 用語集にもどる