【けいたいそかいせき】

形態素解析 とは?

💡 言葉をパーツに分解する職人技
📌 このページのポイント
形態素解析:日本語テキストの分割 入力 東京スカイツリーに行った 形態素解析 東京スカイツリー 名詞・固有名詞 助詞 行っ 動詞・連用形 助動詞 英語と日本語の違い 英語:スペースで区切れる I | love | cats 日本語:区切りがない! すもももももももものうち → 解析が必須
形態素解析による日本語テキストの分割イメージ
ひよこ ひよこ

形態素解析って何をしてるの?

ペンギン先生 ペンギン先生

文章を意味のある最小のパーツに分解する処理だよ。たとえば「東京スカイツリーに行った」なら「東京スカイツリー/に/行っ/た」のように分割して、それぞれに名詞や助詞などの品詞情報をつけるんだ

ひよこ ひよこ

英語でも同じことをするの?

ペンギン先生 ペンギン先生

英語は単語がスペースで区切られているから分割自体は簡単なんだ。でも日本語は「すもももももももものうち」みたいにスペースがないから、どこで区切るかが難問。だから日本語NLPでは形態素解析が特に重要なんだよ

ひよこ ひよこ

どうやって区切る場所を決めてるの?

ペンギン先生 ペンギン先生

辞書と統計モデルの組み合わせだよ。MeCabなら辞書に登録された単語とその接続コストを使って、もっとも自然な分割パターンを計算する。新語や固有名詞に弱い場合はユーザー辞書を追加して対応できるんだ

ひよこ ひよこ

AIや検索エンジンにも使われてるの?

ペンギン先生 ペンギン先生

めちゃくちゃ使われているよ。検索エンジンは文書をインデックスに登録するとき形態素解析で単語に分割する。チャットボット感情分析などのAIも、まず形態素解析でテキストを分割してからモデルに入力するのが定番の流れだね。最近のLLMではサブワードトークナイザーが主流だけど、日本語特有の処理には今でも形態素解析が活躍しているよ

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
形態素解析って出てきたら「文章を最小の単語パーツに分解すること」と思えればだいたいOK!
📖 おまけ:英語の意味
「Morphological Analysis」 = 形態素の解析
💬 Morphemeはギリシャ語のmorphe(形)が語源で、言語学における最小の意味単位を指す言葉だよ
← 用語集にもどる