Tutte le risorse

Sintesi Vocale


La sintesi vocale è la produzione artificiale del parlato umano da parte di un sistema informatico.[1] Gli approcci iniziali assemblavano il parlato a partire da frammenti registrati o modellavano direttamente il tratto vocale, mentre i sistemi contemporanei utilizzano reti neurali profonde per generare forme d'onda che assomigliano da vicino a un parlante naturale.

La qualità del parlato sintetizzato si valuta in base a quanto risulti intelligibile e naturale, inclusi accento, tempistica ed emozione corretti. La sintesi vocale è alla base del text-to-speech, degli assistenti vocali e di molti strumenti di accessibilità, ed è il fondamento su cui si costruiscono tecniche più specializzate come la clonazione vocale.[2]