【ワヌドツヌベック】

Word2Vec ずは

💡 単語に「䜏所」を䞎えお、意味の近さを距離で枬れるようにした革呜的手法
📌 このペヌゞのポむント
Word2Vec: 単語をベクトルに倉換 犬 猫 銬 動物 りんご バナナ みかん 果物 日本 東京 フランス ベクトル挔算 王 − 男 + 女 ≒ 女王 東京 − 日本 + フランス ≒ パリ 意味的な関係を 数倀ベクトルで衚珟 䌌た意味の単語は 近い䜍眮にマッピング ※ 自然蚀語凊理の基盀技術。単語の意味を数倀化する
Word2Vecのむメヌゞ
ひよこ ひよこ

Word2Vecっおなに単語をベクトルにするっおどういうこず

ペンギン先生 ペンギン先生

コンピュヌタは文字のたただず蚈算できないから、単語を数字の䞊びベクトルに倉換するんだよ。Word2Vecは「䌌た文脈で䜿われる単語は䌌た意味を持぀」っおいう考え方で、各単語に200〜300次元くらいの数字の䜏所を割り圓おるんだ

ひよこ ひよこ

「king - man + woman = queen」っお有名な䟋、あれ本圓に蚈算で出るの

ペンギン先生 ペンギン先生

出るんだよ、これが。kingのベクトルからmanのベクトルを匕くず「王族っぜさ」みたいな成分が残る。そこにwomanを足すずqueenに䞀番近いベクトルになる。単語の意味関係が足し算・匕き算で衚珟できるっお発芋は衝撃的だったんだ

ひよこ ひよこ

CBOWずSkip-gramっお䜕が違うの

ペンギン先生 ペンギン先生

予枬の方向が逆なんだ。CBOWは「呚りの単語から真ん䞭の単語を圓おる」、Skip-gramは「真ん䞭の単語から呚りの単語を圓おる」。䞀般的にSkip-gramの方が出珟頻床の䜎い単語にも匷いっお蚀われおるよ。倧芏暡コヌパスならCBOWの方が速い

ひよこ ひよこ

今のChatGPTずかもWord2Vecを䜿っおるの

ペンギン先生 ペンギン先生

盎接は䜿っおないけど、考え方の土台になっおるよ。GPTやBERTもたず単語トヌクンをベクトルに倉換する「埋め蟌み局」があるんだ。Word2Vecがその抂念を切り拓いたっお意味で、珟代NLPの出発点ず蚀っおいいね

ひよこ ひよこ

じゃあ今からWord2Vecを勉匷する意味っおあるの

ペンギン先生 ペンギン先生

あるよ。ベテランでも意倖ず知らないんだけど、Word2Vecの孊習で䜿われる「ネガティブサンプリング」っお技術は、今の察照孊習Contrastive Learningの原型なんだ。CLIPずかSimCLRみたいな最新手法の根っこにWord2Vecの発想がある。あず、Word2Vecのベクトルには孊習デヌタの偏芋がそのたた反映される問題䟋えば「doctor」が「man」に近くなるがあっお、これが今のLLMのバむアス問題を考える䞊でも重芁な教蚓になっおるんだよ

ペンギン
たずめざっくりこれだけ芚えればOK
「Word2Vec」っお出おきたら「単語を数字の列ベクトルに倉換しお、意味の近さを蚈算できるようにした技術」ず思えればだいたいOK
📖 おたけ英語の意味
「Word to Vector」  単語からベクトルぞ
💬 そのたんたのネヌミングだけど、この「単語をベクトルに倉換する」っおアむデア自䜓が圓時は革呜的だったんだよ。それたではone-hot゚ンコヌディングっおいう、単語の数だけ次元がある超スカスカなベクトルしかなかったからね
← 甚語集にもどる