【とーくん】

トークン(AI) とは?

💡 AIが文章を食べるときの「一口サイズ」
📌 このページのポイント
トークン — テキストを分割した最小単位 入力テキスト 「今日はいい天気ですね」 ▼ トークン化 今日 いい 天気 です ID: 1024 ID: 305 ID: 512 ID: 2048 ID: 891 ID: 156 AIモデルはテキストをトークン単位で処理する この文 = 6トークン → 処理コストはトークン数に比例
トークンのイメージ
ひよこ ひよこ

トークンって何?文字とは違うの?

ペンギン先生 ペンギン先生

文字とは少し違うんだ。たとえば英語だと「I am happy」は「I」「am」「happy」の3トークンになるけど、「unhappy」は「un」「happy」の2トークンに分かれたりする。日本語だと1文字が1トークンになることもあるし、よく使う単語はまとめて1トークンになることもあるよ。

ひよこ ひよこ

なんでわざわざ分割するの?

ペンギン先生 ペンギン先生

AIは数字しか扱えないから、文章をまず小さな単位に分けて、それぞれに番号を振る必要があるんだ。辞書みたいに「この単語は1234番」って対応表を作るイメージだね。単位が細かすぎると処理が大変だし、大きすぎると語彙が膨大になるから、ちょうどいいサイズに分けるのがトークンの役割だよ。

ひよこ ひよこ

トークン数が多いとお金がかかるって聞いたけど?

ペンギン先生 ペンギン先生

そのとおり!ChatGPTAPIなどは、入力と出力のトークン数に応じて課金される仕組みなんだ。だから同じ質問でも、長い前置きをつけるとトークン数が増えて料金が上がる。プロンプトを短く効率的に書くのが、コスト削減のコツだよ。

ひよこ ひよこ

トークンの数え方ってどうやって確認できるの?

ペンギン先生 ペンギン先生

OpenAIのtiktokenライブラリや、Webツール(OpenAI Tokenizer)で確認できるよ。日本語は英語よりトークン数が多くなりがちで、同じ意味の文章でも日本語は英語の1.5〜2倍のトークンを消費する。APIのコストを管理するなら、トークン数を意識したプロンプト設計が重要だよ。

ひよこ ひよこ

コンテキストウィンドウが128Kトークンって大きいの?

ペンギン先生 ペンギン先生

英語なら約10万語、日本語なら文庫本2〜3冊分くらいの情報量だよ。GPT-4 Turboは128K、Claude 3は200Kトークンのコンテキストウィンドウを持つ。ただし「長く入れられる」ことと「長い入力を正確に理解できる」ことは別問題で、重要な情報がプロンプトの中間にあると見落とされやすい「Lost in the Middle」問題が知られている。長ければいいというものではないんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「トークン」って出てきたら「AIが文章を処理するために分割した一口サイズの単位のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Token」 = しるし、象徴、証拠
💬 もともとは「しるし」や「代用品」という意味。AIの世界では文章を代表する小さな断片を指すよ
← 用語集にもどる