【ワードツーベック】
Word2Vec とは?
💡 単語に「住所」を与えて、意味の近さを距離で測れるようにした革命的手法
📌 このページのポイント
Word2Vecってなに?単語をベクトルにするってどういうこと?
コンピュータは文字のままだと計算できないから、単語を数字の並び(ベクトル)に変換するんだよ。Word2Vecは「似た文脈で使われる単語は似た意味を持つ」っていう考え方で、各単語に200〜300次元くらいの数字の住所を割り当てるんだ
「king - man + woman = queen」って有名な例、あれ本当に計算で出るの?
CBOWとSkip-gramって何が違うの?
予測の方向が逆なんだ。CBOWは「周りの単語から真ん中の単語を当てる」、Skip-gramは「真ん中の単語から周りの単語を当てる」。一般的にSkip-gramの方が出現頻度の低い単語にも強いって言われてるよ。大規模コーパスならCBOWの方が速い
今のChatGPTとかもWord2Vecを使ってるの?
じゃあ今からWord2Vecを勉強する意味ってあるの?
まとめ:ざっくりこれだけ覚えればOK!
「Word2Vec」って出てきたら「単語を数字の列(ベクトル)に変換して、意味の近さを計算できるようにした技術」と思えればだいたいOK!
📖 おまけ:英語の意味
「Word to Vector」 = 単語からベクトルへ
💬 そのまんまのネーミングだけど、この「単語をベクトルに変換する」ってアイデア自体が当時は革命的だったんだよ。それまではone-hotエンコーディングっていう、単語の数だけ次元がある超スカスカなベクトルしかなかったからね