Синтез речи
Синтез речи — это искусственное воспроизведение человеческой речи компьютерной системой.[1] Ранние подходы собирали речь из записанных фрагментов или напрямую моделировали речевой тракт, тогда как современные системы используют глубокие нейронные сети для генерации звуковых сигналов, которые близко напоминают естественного говорящего.
Качество синтезированной речи оценивается по тому, насколько разборчиво и естественно она звучит, включая правильное ударение, ритм и эмоцию. Синтез речи лежит в основе технологии text-to-speech, голосовых ассистентов и многих инструментов доступности, и именно на нём строятся более специализированные методы, такие как клонирование голоса.[2]