Sprachsynthese
Sprachsynthese ist die künstliche Erzeugung menschlicher Sprache durch ein Computersystem.[1] Frühe Ansätze setzten Sprache aus aufgezeichneten Fragmenten zusammen oder modellierten den Vokaltrakt direkt, während zeitgenössische Systeme tiefe neuronale Netze verwenden, um Wellenformen zu erzeugen, die einem natürlichen Sprecher sehr nahekommen.
Die Qualität synthetisierter Sprache bemisst sich daran, wie verständlich und natürlich sie klingt, einschließlich korrekter Betonung, Timing und Emotion. Sprachsynthese bildet die Grundlage von Text-to-Speech, Sprachassistenten und vielen Werkzeugen für Barrierefreiheit und ist das Fundament, auf dem speziellere Techniken wie das Voice Cloning aufbauen.[2]