
对于数量惊人的人来说,这些深度造假似乎是真实的。
根据伦敦大学学院的一项新研究,人类无法检测到人工智能制造的超过四分之一的深度虚假语音样本。
根据麻省理工学院的说法,在“深度伪造”技术中,“图像或视频中的一个人与另一个人的肖像进行了交换”。这项技术也被用来为诈骗重现人的声音。
上周发表在《公共科学图书馆·综合》(PLOS One)杂志上的伦敦大学学院的这项新研究,使用了一种文本到语音的算法,该算法在两个公开可用的数据集上进行了训练,创建了50个英语和普通话的深度假语音样本。
529名研究参与者播放了这些样本,他们试图从假声音中分辨出真实的声音。

参与者只能在73%的情况下识别出虚假语音,只有在接受了如何识别深度语音的培训后才略有提高。
该研究的作者之一、伦敦大学学院机器学习专业的博士生金伯利·麦在一份声明中说:“我们的研究结果证实,人类无法可靠地检测到深度虚假语音,无论他们是否接受过帮助他们识别人工内容的培训。”
“同样值得注意的是,我们在这项研究中使用的样本是用相对较旧的算法创建的,这就提出了一个问题,即人类是否不太能够检测到使用现在和未来最复杂的技术创建的深度虚假语音,”Mai继续说道。
据称,这项英国研究首次探索了人类识别非英语语言人工生成语音的能力。

说英语和说普通话的人的识别率相似,但说英语的人经常提到呼吸,而说普通话的人在被问及解码方法时注意到节奏。
伦敦大学学院的研究人员警告说,深度伪造技术只会变得越来越强大,因为最新的预训练算法“只需要3秒钟的说话片段就能重现一个人的声音”。
科学家们希望创造出更强大的自动语音探测器,以更好地应对潜在的威胁。
该研究的资深作者、伦敦大学学院教授刘易斯·格里芬说:“随着生成式人工智能技术变得越来越复杂,许多工具都是公开可用的,我们即将看到许多好处和风险。”
“政府和组织制定应对滥用这些工具的策略当然是谨慎的,但我们也应该认识到即将出现的积极可能性。”

一些专家表示,深度造假将在2024年的选举中扮演危险的角色。
今年3月,视频分享平台TikTok禁止了年轻人的深度造假。
这一举措出台之际,利用深度造假来恐吓人们交出金钱或自己的色情照片的骗局正在激增。











