【うめこみひょうげん】
埋め込み表現 とは?
💡 言葉の「意味」を数字の座標に変換する技術
📌 このページのポイント
コンピューターって文字を数値に変換するって聞いたけど、埋め込み表現って何が違うの?
普通の文字コードは「意味を無視した変換」なんだ。AはASCIIで65、Bは66、でも65と66に意味的な近さはない。埋め込み表現は「猫」と「ネコ」が似ていて「猫」と「車」が遠いというような、意味の距離関係を保ったまま数値に変換するんだよ。
「王様 - 男性 + 女性 = 女王」みたいな演算って本当にできるの?
埋め込みって何次元なの?
モデルによって違って、128次元から4096次元以上まで様々だよ。次元が大きいほど多くの意味の違いを表現できるけど、計算コストも増える。GPT-3は12288次元の埋め込みを使っているんだ。人間には想像できない高次元の空間だけどね。
埋め込みって文脈によって変わるって聞いたけど、どういうこと?
まとめ:ざっくりこれだけ覚えればOK!
「埋め込み表現」って出てきたら「言葉の意味を数値のリストに変換したもの」と思えればだいたいOK!
📖 おまけ:英語の意味
「Embedding」 = 埋め込む・組み込む
💬 言語という抽象的なものを数値空間に「埋め込む(embed)」というイメージだよ。Word2VecやBERTが有名な手法