보이스 클로닝(Voice Cloning)
보이스 클로닝은 머신러닝을 사용해 특정 인물의 목소리에 대한 합성 모델을 구축함으로써, 작성된 텍스트나 다른 연기자의 녹음된 연기로부터 그 목소리로 새로운 음성을 생성하는 것이다.[1] 최신 시스템은 참조 녹음으로부터 화자의 음색, 리듬, 발음을 학습한 뒤 이러한 특성을 새로운 소재 전반에 재현하는 심층 신경망에 의존하며, 참조 오디오의 양과 품질은 결과물이 얼마나 충실하게 들리는지에 크게 영향을 미친다.
미디어 제작에서 보이스 클로닝은 대사 교체, 현지화, 그리고 아카이브 자료를 포함해 달리 확보할 수 없는 목소리를 재현하는 작업을 지원한다. 이 기술은 실존 인물을 설득력 있게 모방할 수 있기 때문에, 동의, 초상권, 오디오 딥페이크에 관한 법적·윤리적 문제를 제기하며, 이는 업계 지침과 새로운 입법을 모두 촉발했다.[2] 따라서 책임 있는 워크플로는 기술적 과정을 연기자의 명시적 허가 및 명확한 고지와 결합한다.[3]