Todos os recursos

Síntese de Voz


A síntese de voz é a produção artificial da fala humana por um sistema computacional.[1] As abordagens iniciais montavam a fala a partir de fragmentos gravados ou modelavam diretamente o trato vocal, enquanto os sistemas contemporâneos usam redes neurais profundas para gerar formas de onda que se assemelham fielmente a um falante natural.

A qualidade da fala sintetizada é avaliada pelo quão inteligível e natural ela soa, incluindo a acentuação, o tempo e a emoção corretos. A síntese de voz é a base do text-to-speech, dos assistentes de voz e de muitas ferramentas de acessibilidade, e é o alicerce sobre o qual se constroem técnicas mais especializadas, como a clonagem de voz.[2]