Apprentissage profond appliqué à l'audio
L'apprentissage profond appliqué à l'audio utilise des réseaux de neurones comportant de nombreuses couches pour des tâches telles que la reconnaissance, la génération et la transformation du son.[1] En apprenant des motifs à partir de grandes quantités de données audio, ces modèles peuvent accomplir des tâches autrefois difficiles à programmer directement, notamment la synthèse vocale, la séparation de sources et la réduction du bruit.
Les mêmes techniques alimentent le clonage de voix, la musique générative et les outils audio intelligents, et elles continuent de progresser rapidement. Bien les appliquer exige des données d'entraînement adaptées, une évaluation rigoureuse et une attention aux questions éthiques qui se posent lorsque des modèles peuvent imiter de façon convaincante des voix et des sons réels.[2]