ボイスクローニング
ボイスクローニングとは、機械学習を用いて特定の人物の声の合成モデルを構築することであり、これによって書かれたテキストや別の演者の録音された演技から、その声で新しい音声を生成できます。[1] 現代のシステムは、参照用の録音から話者の音色、リズム、発音を学習し、それらの特徴を新しい素材にわたって再現する深層ニューラルネットワークに依存しており、参照音声の量と質が結果の忠実度に大きく影響します。
メディア制作において、ボイスクローニングはセリフの差し替え、ローカライズ、そしてアーカイブ素材を含め他では入手できない声の再現を支えます。この技術は実在の人物を説得力をもって模倣できるため、同意、肖像権、そして音声のディープフェイクをめぐる法的・倫理的な問題を提起しており、それが業界ガイドラインと新たな立法の双方を促してきました。[2] したがって、責任あるワークフローでは、技術的なプロセスと、演者からの明示的な許諾および明確な開示とを組み合わせます。[3]