【おんせいにんしき】
音声認識 とは?
💡 人の声を「文字」に変えるAIの耳
📌 このページのポイント
音声認識ってどうやって声を文字にしてるの?
まず音声を短い時間ごとに区切って、音の特徴を数値化するんだ。次にその数値パターンから「どの音素(あ、い、う…)が発音されたか」を推定して、最後に言語モデルを使って「文脈的にどの単語が来るのが自然か」を判断してテキストにするよ。
方言やなまりがあっても認識できるの?
標準語に比べると精度は下がるけど、最近のモデルは多様な話者のデータで学習しているからかなり対応できるようになっているよ。ただ、強い方言や専門用語が多い会話はまだ苦手なことが多いんだ。
SiriとかAlexaって同じ技術なの?
基本的なしくみは似ているけど、各社が独自にモデルを開発しているよ。音声認識でテキストに変換した後、自然言語処理で意図を理解して、応答を返すという流れは共通しているんだ。
音声認識で一番難しいことって何?
「カクテルパーティー問題」って呼ばれる課題が面白くて難しいんだ。パーティー会場みたいに複数の人が同時に喋っている中から、特定の人の声だけを聞き分けるという問題なんだけど、人間は無意識にこれをやっている。でもコンピューターにとっては音の波形が全部混ざってしまうから分離が非常に難しい。最近はAIでかなり改善されてきたけど、3人以上が同時に話すと精度が急激に落ちるし、残響が多い部屋だとさらに困難になる。人間の聴覚がいかに優れているかを思い知らされるテーマだよ。
まとめ:ざっくりこれだけ覚えればOK!
「音声認識」って出てきたら「人の声をコンピューターが聞き取ってテキストに変換する技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Speech Recognition」 = 音声の認識
💬 Speechは「話し言葉」、Recognitionは「認識」。話し言葉を認識する技術のことだよ