Text-to-Speech (TTS)
Text-to-speech, ou TTS, é uma tecnologia que converte texto escrito em áudio falado, uma forma de síntese de voz.[1] Os sistemas modernos usam aprendizado de máquina para produzir vozes de som natural, com ritmo e entonação apropriados, e conseguem ler em voz alta qualquer texto sob demanda.
No trabalho com mídia e produtos, o TTS é usado para acessibilidade, interfaces de voz, prototipagem rápida de diálogos e conteúdo que precisa ser gerado ou atualizado em escala. Projetar uma boa experiência de TTS envolve escolher vozes, ajustar a pronúncia e integrar o sistema de modo que sua saída se encaixe naturalmente no áudio ao redor.[2]