Todos los recursos

Clonación de voz


La clonación de voz es el uso del aprendizaje automático para construir un modelo sintético de la voz de una persona específica, de modo que se pueda generar nuevo habla con esa voz a partir de texto escrito o de la interpretación grabada de otro intérprete.[1] Los sistemas modernos se basan en redes neuronales profundas que aprenden el timbre, el ritmo y la pronunciación de un hablante a partir de grabaciones de referencia, y luego reproducen esos rasgos en material nuevo; la cantidad y la calidad del audio de referencia influyen notablemente en lo fiel que suena el resultado.

En la producción de medios, la clonación de voz facilita el reemplazo de diálogo, la localización y la recreación de voces que de otro modo no están disponibles, incluido el material de archivo. Dado que la tecnología puede imitar de forma convincente a personas reales, plantea cuestiones legales y éticas sobre el consentimiento, los derechos de imagen y los deepfakes de audio, lo que ha impulsado tanto directrices del sector como legislación emergente.[2] Por ello, los flujos de trabajo responsables combinan el proceso técnico con la autorización explícita del intérprete y una divulgación clara.[3]