【けいたいそかいせき】
形態素解析 とは?
💡 言葉をパーツに分解する職人技
📌 このページのポイント
形態素解析って何をしてるの?
文章を意味のある最小のパーツに分解する処理だよ。たとえば「東京スカイツリーに行った」なら「東京スカイツリー/に/行っ/た」のように分割して、それぞれに名詞や助詞などの品詞情報をつけるんだ
英語でも同じことをするの?
英語は単語がスペースで区切られているから分割自体は簡単なんだ。でも日本語は「すもももももももものうち」みたいにスペースがないから、どこで区切るかが難問。だから日本語NLPでは形態素解析が特に重要なんだよ
どうやって区切る場所を決めてるの?
辞書と統計モデルの組み合わせだよ。MeCabなら辞書に登録された単語とその接続コストを使って、もっとも自然な分割パターンを計算する。新語や固有名詞に弱い場合はユーザー辞書を追加して対応できるんだ
AIや検索エンジンにも使われてるの?
まとめ:ざっくりこれだけ覚えればOK!
形態素解析って出てきたら「文章を最小の単語パーツに分解すること」と思えればだいたいOK!
📖 おまけ:英語の意味
「Morphological Analysis」 = 形態素の解析
💬 Morphemeはギリシャ語のmorphe(形)が語源で、言語学における最小の意味単位を指す言葉だよ