音声合成とは、コンピューターシステムによって人間の音声を人工的に生成することです。[1] 初期の手法では録音された断片から音声をつなぎ合わせたり、声道を直接モデル化したりしていましたが、現代のシステムは深層ニューラルネットワークを用いて、自然な話者に酷似した波形を生成します。
合成された音声の品質は、正しいアクセント、タイミング、感情を含め、どれだけ聞き取りやすく自然に聞こえるかによって評価されます。音声合成はテキスト音声合成、音声アシスタント、そして数多くのアクセシビリティツールの基盤であり、ボイスクローニングのようなより専門的な技術が構築される土台でもあります。[2]