Todos os recursos

Clonagem de Voz


A clonagem de voz é o uso de aprendizado de máquina para construir um modelo sintético da voz de uma pessoa específica, de modo que uma nova fala possa ser gerada nessa voz a partir de texto escrito ou da interpretação gravada de outro intérprete.[1] Os sistemas modernos se baseiam em redes neurais profundas que aprendem o timbre, o ritmo e a pronúncia de um falante a partir de gravações de referência e, em seguida, reproduzem essas características em novo material, sendo que a quantidade e a qualidade do áudio de referência afetam fortemente o quão fiel o resultado soa.

Na produção de mídia, a clonagem de voz dá suporte à substituição de diálogos, à localização e à recriação de vozes que de outra forma estariam indisponíveis, incluindo material de arquivo. Como a tecnologia pode imitar pessoas reais de forma convincente, ela levanta questões jurídicas e éticas sobre consentimento, direitos de imagem e deepfakes de áudio, o que tem motivado tanto diretrizes do setor quanto legislações emergentes.[2] Por isso, fluxos de trabalho responsáveis combinam o processo técnico com a autorização explícita do intérprete e com uma divulgação clara.[3]