Sintesi Vocale da Testo (TTS)
Il text-to-speech, o TTS, è una tecnologia che converte il testo scritto in audio parlato, una forma di sintesi vocale.[1] I sistemi moderni utilizzano il machine learning per produrre voci dal suono naturale con ritmo e intonazione appropriati, e sono in grado di leggere ad alta voce qualsiasi testo su richiesta.
Nel lavoro su media e prodotti, il TTS viene utilizzato per l'accessibilità, le interfacce vocali, la rapida prototipazione dei dialoghi e i contenuti che devono essere generati o aggiornati su larga scala. Progettare una buona esperienza TTS comporta la scelta delle voci, la messa a punto della pronuncia e l'integrazione del sistema in modo che il suo output si inserisca naturalmente nell'audio circostante.[2]