【てきすとぶんるい】

テキスト分類 とは?

💡 文章を自動で「仕分け」するAIの分類術
📌 このページのポイント
テキスト分類 — 文章をカテゴリに振り分け 入力テキスト "この商品最高!" "配送が遅い…" "普通でした" 分類モデル 特徴抽出 パターン学習 カテゴリ予測 分類結果 ポジティブ 😊 信頼度: 95% ネガティブ 😟 信頼度: 88% ニュートラル 😐 信頼度: 72% 活用例: スパム判定 / 感情分析 / カテゴリ自動付与 / 問い合わせ仕分け テキストを学習済みモデルで自動的にカテゴリに分類する技術
テキスト分類のイメージ
ひよこ ひよこ

テキスト分類って具体的にどこで使われてるの?

ペンギン先生 ペンギン先生

一番身近なのは迷惑メールフィルターだよ。受信したメールの内容を分析して「通常メール」か「迷惑メール」かを自動で分類しているんだ。他にも、カスタマーサポートへの問い合わせを「返品」「不具合」「質問」などに自動で振り分けて、適切な担当者に回すのにも使われているよ。

ひよこ ひよこ

どうやって分類してるの?

ペンギン先生 ペンギン先生

基本的には「この種類の文章にはこういう単語やパターンがよく出てくる」ということを学習データから覚えるんだ。例えば迷惑メールなら「当選」「無料」「今すぐ」のような単語が多い。最近のモデルは単語だけでなく文脈全体を理解して分類できるから、巧妙な迷惑メールも見抜けるようになってきているよ。

ひよこ ひよこ

感情分析とは違うの?

ペンギン先生 ペンギン先生

感情分析はテキスト分類の一種なんだ。「ポジティブ」「ネガティブ」というカテゴリに分類しているわけだからね。テキスト分類はもっと広い概念で、ニュースを「政治」「経済」「スポーツ」に分けるのも、文書を「機密」「社外秘」「公開」に分けるのも全部テキスト分類だよ。

ひよこ ひよこ

テキスト分類って簡単にできるもの?

ペンギン先生 ペンギン先生

カテゴリが明確に分かれている場合は比較的うまくいくんだけど、「マルチラベル分類」になると途端に難しくなるんだ。一つの文書が複数のカテゴリに同時に属するケースね。例えばニュース記事「IT企業のCEOが政治献金」は「テクノロジー」でもあり「政治」でもある。しかもカテゴリ間の出現頻度に大きな偏り(クラス不均衡)があると、レアなカテゴリの分類精度が極端に下がる。学習データが少ないカテゴリをどう扱うかは実務で常に悩まされる問題で、オーバーサンプリングやコスト感応学習などいろいろな対策はあるけど、決定打はまだないんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「テキスト分類」って出てきたら「文章を自動でカテゴリに振り分ける技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Text Classification」 = テキストの分類
💬 Classificationは「分類」という意味。文章をクラス(カテゴリ)に分ける技術のことだよ
← 用語集にもどる