当前位置:首页 > 百科 > 正文

人工智能语音合成(阿里云免费人工智能语音合成)

澎湃新闻记者 张唯 实习生 王祎琛

“深度伪造”技术(Deepfake)通常指利用人工智能技术实时伪造面部表情、人声,并合成高仿真度的视频与音频。当前,利用Deepfake 进行语音诈骗正在成为公司诈骗的新型手段之一。

人工智能语音合成(阿里云免费人工智能语音合成)  第1张

当地时间7月27日,美国科技媒体The Verge报道称,网络诈骗犯正在利用Deepfake仿制公司高管的语音,合成语音邮件发送至公司员工,对大型公司进行经济诈骗。

7月19日,总部位于美国弗吉尼亚州的安全咨询公司NISOS发布了一份题为《合成音频Deepfakes的兴起》(The Rise of Synthetic Audio Deepfakes)的白皮书,在其中调查并分析了一家科技公司遭遇Deepfake音频诈骗的事件,并向大众提出预防该类诈骗的建议。

白皮书称,敲诈者将一份模仿某公司CEO语音的Deepfake音频以邮件形式发送给公司员工,要求员工“立即提供帮助以完成紧急商业交易”。

NISOS使用音频频谱工具对该语音邮件的Deepfake音频进行了分析。他们发现,这段Deepfake语音的频谱图有峰值反复出现且音频有不连贯的特点。经过与真实人声音频的比对,NISOS称,相较于合成音频,真实人声的音高与音调都更为平滑。

此外,当研究团队放大合成音频的音量时,他们无法监测到背景噪音。而在真实人声的音频中能够检测微弱的背景噪音。这进一步表明这段音频是经过人为处理的。

值得庆幸的是,这次诈骗并未成功,上述公司员工在收到语音邮件后认为其可疑并将其登记至公司的法律部门。但在此之前,已有诸多利用Deepfake技术进行公司诈骗的案例。

白皮书称,2019年9月,犯罪分子使用语音克隆软件对英国一家能源公司高管的声音进行模仿,该公司的执行董事在接听诈骗电话后将超过24万美元汇入了一个匈牙利账户。目前,该罪犯仍未被抓获。

2020年2月20日 ,互联网安全专家公司Symantec报告了三起Deepfake音频诈骗案例,犯罪分子通过电话会议、YouTube、社交媒体以及TED演讲获得了公司高管的音频,然后用机器学习技术复制高管的声音,致电财务部门的高级成员要求紧急汇款。

NISOS注意到,Deepfake音频创作者为了创建更为逼真的音频,通常需要克服如下几个因素:捕获几乎没有背景噪音的高质量音频;在不需要回电的情况下进行音频传送;以留言的形式避免与音频接收者实时交谈。

因此,犯罪分子很可能利用VoIP网络电话账号联系攻击对象,并使用语音邮件功能发送合成音频。VoIP(Voice over Internet Protocol)即基于IP的语音传输,可以经由网络协议(IP)直接与电话进行通话。

人工智能语音合成(阿里云免费人工智能语音合成)  第2张

随着Deepfakes的创建或购买变得越来越容易,音频、视频的合成处理质量不断提高。NISOS预计,此类电子诈骗将更为普遍。据The Verge 2020年1月29日的报道,美国联邦贸易委员会(FTC)在其首个有关音频克隆技术的公开研讨会上,警告了语音克隆技术诈骗案件的危险性。美国司法部的计算机犯罪和知识产权部门也表示,Deepfakes使犯罪分子能够进行匿名交流,降低了诈骗难度。

如何预防此类语音诈骗? NISOS建议,由于现有的Deepfake技术还无法模仿整个通话过程,当公司员工察觉语音邮件等音频有可疑之处时,可以使用已知号码回拨该发送者进行通话;公司员工也可以针对公司内部信息或某些机器无法轻易回答的问题在通话过程中进行挑战性提问,以查明通话对象的身份。

责任编辑:李跃群

校对:刘威