Síntesis de voz
La síntesis de voz es la producción artificial del habla humana por parte de un sistema informático.[1] Los primeros enfoques ensamblaban el habla a partir de fragmentos grabados o modelaban directamente el tracto vocal, mientras que los sistemas contemporáneos utilizan redes neuronales profundas para generar formas de onda que se asemejan estrechamente a un hablante natural.
La calidad del habla sintetizada se juzga por lo inteligible y natural que suena, incluyendo el acento, la sincronización y la emoción correctos. La síntesis de voz sustenta la conversión de texto a voz, los asistentes de voz y muchas herramientas de accesibilidad, y es la base sobre la que se construyen técnicas más especializadas, como la clonación de voz.[2]