全部资源

声音克隆


声音克隆是利用机器学习为特定人物的声音构建合成模型,从而能够根据书面文本或另一位表演者的录制演绎,用该声音生成新的语音。[1]现代系统依赖深度神经网络,从参考录音中学习说话者的音色、节奏和发音,再将这些特征复现到新素材上;参考音频的数量和质量会显著影响最终成果的忠实程度。

在媒体制作中,声音克隆可支持对白替换、本地化,以及对那些无法获取的声音(包括档案素材)进行重现。由于该技术能够逼真地模仿真实人物,它引发了关于授权同意、肖像权和音频深度伪造的法律与伦理问题,这也促成了行业准则和新兴立法的出台。[2]因此,负责任的工作流程会将技术流程与明确的表演者授权及清晰的信息披露相结合。[3]