【とーくん】
トークン(AI) とは?
💡 AIが文章を食べるときの「一口サイズ」
📌 このページのポイント
トークンって何?文字とは違うの?
文字とは少し違うんだ。たとえば英語だと「I am happy」は「I」「am」「happy」の3トークンになるけど、「unhappy」は「un」「happy」の2トークンに分かれたりする。日本語だと1文字が1トークンになることもあるし、よく使う単語はまとめて1トークンになることもあるよ。
なんでわざわざ分割するの?
AIは数字しか扱えないから、文章をまず小さな単位に分けて、それぞれに番号を振る必要があるんだ。辞書みたいに「この単語は1234番」って対応表を作るイメージだね。単位が細かすぎると処理が大変だし、大きすぎると語彙が膨大になるから、ちょうどいいサイズに分けるのがトークンの役割だよ。
トークン数が多いとお金がかかるって聞いたけど?
トークンの数え方ってどうやって確認できるの?
コンテキストウィンドウが128Kトークンって大きいの?
英語なら約10万語、日本語なら文庫本2〜3冊分くらいの情報量だよ。GPT-4 Turboは128K、Claude 3は200Kトークンのコンテキストウィンドウを持つ。ただし「長く入れられる」ことと「長い入力を正確に理解できる」ことは別問題で、重要な情報がプロンプトの中間にあると見落とされやすい「Lost in the Middle」問題が知られている。長ければいいというものではないんだよ。
まとめ:ざっくりこれだけ覚えればOK!
「トークン」って出てきたら「AIが文章を処理するために分割した一口サイズの単位のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Token」 = しるし、象徴、証拠
💬 もともとは「しるし」や「代用品」という意味。AIの世界では文章を代表する小さな断片を指すよ