【こゆうひょうげんにんしき】

固有表現認識(NER) とは?

💡 文章の中から「固有名詞」を見つけ出すAIの読解力
📌 このページのポイント
固有表現認識(NER):テキスト解析 入力テキスト 田中太郎 は 2024年4月 に 東京都 の Google で働き始めた NER処理 認識結果 田中太郎 2024年4月 東京都 Google で働き始めた 人名 田中太郎 PERSON 日時 2024年4月 DATE 地名 東京都 LOCATION 組織名 Google ORGANIZATION
固有表現認識のイメージ
ひよこ ひよこ

固有表現認識って何に使うの?

ペンギン先生 ペンギン先生

例えば「田中太郎は2024年4月に東京でABC株式会社に入社した」という文から、「田中太郎=人名」「2024年4月=日付」「東京=地名」「ABC株式会社=組織名」を自動で抽出するんだ。ニュース記事を自動分類したり、大量の文書から特定の情報を一括で抜き出すときに使うよ。

ひよこ ひよこ

おもしろい!単語を見れば人名か地名かわかりそうだけど、AIじゃないとダメなの?

ペンギン先生 ペンギン先生

「青山」が人名なのか地名なのか、「Apple」が果物なのか会社名なのか、文脈がないと判断できないよね。辞書だけでは新しい人名や造語にも対応できない。だからAIが文脈を理解して判断する必要があるんだ。

ひよこ ひよこ

日本語の固有表現認識って難しいの?

ペンギン先生 ペンギン先生

英語は単語がスペースで区切られているし、固有名詞は大文字で始まるからヒントが多いんだ。でも日本語はスペースがないから、まず「どこからどこまでが一つの単語か」を判断する必要がある。「東京都庁」を「東京」「都庁」と分けるか「東京都」「庁」と分けるかで結果が変わってしまうんだよ。

ひよこ ひよこ

NERの技術的に一番難しい部分って何?

ペンギン先生 ペンギン先生

「入れ子構造」の固有表現が厄介なんだ。例えば「東京大学大学院情報理工学系研究科」の中には「東京大学」「東京大学大学院」「情報理工学系研究科」と複数の固有表現が入れ子になっている。どの粒度で抽出するのが正解かはタスクによって変わるし、従来のNERモデルは入れ子を扱えない設計が多かった。最近はスパンベースの手法で入れ子にも対応できるようになってきたけど、計算コストが跳ね上がるし、アノテーションの基準をどう統一するかも含めて、簡単には解決しない問題なんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「固有表現認識」って出てきたら「文章から人名や地名などの固有名詞を自動で見つけ出す技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Named Entity Recognition(NER)」 = 名前付き実体の認識
💬 Named Entityは「名前が付いた存在」、つまり固有名詞のこと。文章からそれを見つけ出す技術だよ
← 用語集にもどる