【おんせいごうせい】

音声合成(テキストトゥスピーチ) とは?

💡 文字に「声」を吹き込むAI技術
📌 このページのポイント
テキスト音声変換(TTS)のフロー テキスト "こんにちは" テキスト解析 形態素解析 読み推定 アクセント 推定 音声合成 波形生成 韻律制御 声質調整 音声 活用シーン 音声アシスタント ナビゲーション 読み上げ機能 (Siri, Alexa) (カーナビ) (アクセシビリティ) テキストを自然な音声に変換する技術(Text-to-Speech)
テキスト音声変換のイメージ
ひよこ ひよこ

音声合成ってあの機械っぽい声のこと?

ペンギン先生 ペンギン先生

昔はロボットみたいな声だったけど、今のAI音声合成はびっくりするほど自然だよ。感情を込めた話し方や、特定の人の声を再現することもできるんだ。YouTubeのナレーションでAI音声が使われていても気づかないことがあるくらいだよ。

ひよこ ひよこ

どうやってテキストを声にしてるの?

ペンギン先生 ペンギン先生

まずテキストを解析して、読み方やアクセント、イントネーションを決めるんだ。例えば「今日は」が「きょうは」なのか「こんにちは」なのかを文脈から判断する。次にその情報をもとに音声波形を生成するよ。最近のモデルはこの一連の処理をニューラルネットワークで一気にやるんだ。

ひよこ ひよこ

好きな声で喋らせることもできるの?

ペンギン先生 ペンギン先生

できるよ。「ボイスクローニング」と言って、ある人の声を数秒〜数分録音するだけで、その人そっくりの声で任意のテキストを読み上げられるんだ。有名人の声でニュースを読ませたりもできてしまう。

ひよこ ひよこ

それって悪用されそうで怖いね…

ペンギン先生 ペンギン先生

まさにそこが大きな課題なんだ。本人の声を勝手にコピーして詐欺電話に使う「ボイスフィッシング」が実際に起きていて、家族の声で「お金を振り込んで」と電話がかかってくるケースも報告されている。技術が進歩するほど悪用のリスクも高まる。音声が本物かAI生成かを判定する「音声ディープフェイク検出」の研究も進んでいるけど、生成技術と検出技術のいたちごっこになっていて、倫理的・法的なルール作りも含めて社会全体で考えないといけない問題なんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「音声合成」って出てきたら「テキストを人間のような声に変換する技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Text-to-Speech(TTS)」 = テキストから音声へ
💬 Textは「文章」、Speechは「話し言葉」。文章を話し言葉に変換するという意味だよ
← 用語集にもどる