Voice Cloning
Voice Cloning ist der Einsatz von maschinellem Lernen, um ein synthetisches Modell der Stimme einer bestimmten Person zu erstellen, sodass neue Sprache in dieser Stimme aus geschriebenem Text oder aus der aufgezeichneten Darbietung eines anderen Sprechers erzeugt werden kann.[1] Moderne Systeme stützen sich auf tiefe neuronale Netze, die das Timbre, den Rhythmus und die Aussprache eines Sprechers aus Referenzaufnahmen lernen und diese Merkmale dann auf neues Material übertragen, wobei Menge und Qualität des Referenzaudios stark beeinflussen, wie originalgetreu das Ergebnis klingt.
In der Medienproduktion unterstützt Voice Cloning den Dialogersatz, die Lokalisierung und die Wiederherstellung von Stimmen, die anderweitig nicht verfügbar sind, einschließlich Archivmaterial. Da die Technologie reale Personen überzeugend imitieren kann, wirft sie rechtliche und ethische Fragen zu Einwilligung, Persönlichkeitsrechten und Audio-Deepfakes auf, was sowohl Branchenrichtlinien als auch neue Gesetzgebung angestoßen hat.[2] Verantwortungsvolle Arbeitsabläufe verbinden den technischen Prozess daher mit einer ausdrücklichen Genehmigung der Sprecher und einer klaren Offenlegung.[3]