Text-to-Speech (TTS)
Text-to-Speech, oder TTS, ist eine Technologie, die geschriebenen Text in gesprochenes Audio umwandelt, eine Form der Sprachsynthese.[1] Moderne Systeme nutzen maschinelles Lernen, um natürlich klingende Stimmen mit passendem Rhythmus und passender Intonation zu erzeugen, und sie können beliebigen Text auf Abruf vorlesen.
In der Medien- und Produktarbeit wird TTS für Barrierefreiheit, Sprachschnittstellen, schnelles Prototyping von Dialogen sowie für Inhalte eingesetzt, die in großem Umfang generiert oder aktualisiert werden müssen. Die Gestaltung eines guten TTS-Erlebnisses umfasst die Auswahl von Stimmen, das Feintuning der Aussprache und die Integration des Systems, sodass sich seine Ausgabe natürlich in das umgebende Audio einfügt.[2]