大数据文摘出品
提到这种变声技术,可能最先想到的是《名侦探柯南》中柯南使用的蝴蝶结变声器,柯南正是利用阿笠博士的这个发明把“沉睡的毛利小五郎”捧上了侦探界的神坛。
但是试想,如果有人把这项技术用于诈骗,是不是顿时后背发凉?
据《华尔街日报》报道,今年3月份,有犯罪分子就使用了类似的AI技术,他们成功模仿了英国某能源公司在德国母公司CEO的声音,诈骗了220,000欧元(约1,730,806人民币)。
网络犯罪专家称,这是黑客攻击中利用AI技术的一次不寻常案例。
三次电话,损失22万欧元
案发时,该公司的CEO误以为他正在与他的老板,也就是德国母公司的CEO通电话,老板要求他将资金汇给匈牙利供应商。据该公司的保险公司Euler Hermes Group SA称,来电者表示该请求非常紧急,要求行政人员在一小时内付款。
慕尼黑的金融服务公司Allianz SE旗下子公司Euler Hermes的欺诈专家Rüdiger Kirsch说,犯罪分子总共打了三次电话。220,000欧元转移后,他们打电话说母公司已经转移资金偿还英国公司,然后他们在当天晚些时候进行了第三次电话会议,再次冒充首席执行官,要求第二次付款。由于转账偿还资金还没有到来,而第三次电话是来自奥地利的电话号码,行政部门开始怀疑,没有支付第二笔款项。
根据Kirsch先生的说法,转入匈牙利银行账户的资金随后转移到墨西哥并分发到其他地方,调查人员没有发现任何嫌犯,而且,Euler Hermes承担了受害公司索赔的全部金额,但没有处理要求追回涉及AI犯罪损失的索赔。
Kirsch先生认为,使用AI诈骗对公司来说是新的挑战,传统网络安全工具无法发现欺骗性的声音,而黑客往往就是使用商业语音生成软件进行攻击。Kirsch先生用这种产品录制了自己的声音,并说复制版本听起来很真实。
目前还不清楚攻击者是否使用机器人对受害者的问题作出反应。欧洲刑警组织欧洲网络犯罪中心战略负责人菲利普·阿曼说,如果他们这样做,执法当局调查可能会更加困难。Kirsch先生说,警方对此案的调查已经结束,欧洲刑警组织没有参与。
从语音转发到语音复制,声音还有多少可信度?
其实,执法当局和AI专家早有预言,犯罪分子将使用AI进行自动化网络攻击。无论是谁策划了这一事件,他们都已经使用AI软件成功地通过电话模仿了德国高管的声音。
虽然有欧洲官员表示,这是他们第一次听说在欧洲发生AI变声语音诈骗,而且犯罪分子明显依赖于AI变声技术,但这远非第一起利用语音进行诈骗的案件,在国内,变声技术早已被用于网络诈骗中,人民网微博最早在去年八月就发布了利用微信语音诈骗的案件消息。
犯罪分子利用的是一种名叫“增强版微信”的软件,这种“增强版微信”具有能够转发语音消息、克隆好友朋友圈、看到对方撤回的消息等功能。
据称,这些功能都是服务于一些“特殊用户”的,比如自定义位置,就能让客户在国内实现海外“云度假”,或者让一些商家假装自己是“海外代购”等。
脱离微信而言,利用声音合成技术也已经实现了语音复制。
去年,三名蒙特利尔大学博士联合创办的名为“琴鸟”(Lyrebird)的公司开发出了一种“语音合成”技术,只要对目标人物的声音进行1分钟的录音,丢给“Lyrebird”处理,就能得到一个特别的密钥,利用这个密钥可以生成目标人物任何想说的话。
“琴鸟”(Lyrebird)不仅能利用语音模仿演算模仿出任何人的声音,还能在声音中加入“感情”元素,让声音听上去更为逼真。
去年Black Hat大会上也展示了一种声音模拟技术,这项技术是通过获取某人长时间的录音,拼接其声音片段实现模拟。阿曼先生表示,虽然很难预测使用AI的网络攻击是否会很快上升,但如果AI技术能够让黑客攻击更成功或更有利可图,他们会更倾向于使用该技术。
基于神经网络和机器学习的AI变声技术
不管是成功诈骗欧洲公司的黑客们利用的技术,还是加拿大的“琴鸟”(Lyrebird),它们最终都能得到高还原度的合成声音,在这背后依赖的技术正是神经网络(Neural Network)和机器学习(Machine Learning)。
神经网络通过模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理,同时利用分层的神经元,从大量样本数据中总结出共同特征。
第一个用神经网络生成人类自然语音的,就是Google的DeepMind研究实验室发布的WaveNet。
接下来就以WaveNet为例,简单介绍一下AI是如何通过神经网络和机器学习来合成语音的。
论文链接:
https://arxiv.org/abs/1609.03499
WaveNet是基于PixelCNN的音频生成模型,在这个生成模型中,每个音频样本都以先前的音频样本为条件。条件概率用一组卷积层来建模。这个网络没有池化层,模型的输出与输入具有相同的时间维数。
在模型架构中使用临时卷积可以确保模型不会违反数据建模的顺序。在该模型中,每个预测语音样本被反馈到网络上用来帮助预测下一个语音样本,由于临时卷积没有周期性连接,因此它们比RNN训练地更快。
使用临时卷积的主要挑战之一是需要很多层来增加感受野,为了解决这一难题,作者使用了加宽的卷积,加宽的卷积使只有几层的网络能有更大的感受野。模型使用了Softmax分布对各个音频样本的条件分布建模。
这个模型在多人情景的语音生成、文本到语音的转换、音乐音频建模等方面进行了评估。测试中使用的是平均意见评分(MOS),MOS可以评测声音的质量,本质上就是一个人对声音质量的评价一样。它有1到5之间的数字,其中5表示质量最好。
相关检测技术正在研究中
联合国区域间犯罪与司法研究所人工智能与机器人中心主任Irakli Beridze表示,将机器学习技术应用于欺骗性声音使网络犯罪变得更加容易。
联合国中心正在研究检测虚假视频的技术,Beridze先生称这对于黑客来说可能是一个更有用的工具。“想象一下,以CEO的声音进行视频通话,这是您熟悉的面部表情,这样的话你根本不会有任何疑虑。”他说。
推特上有网友对此也发表了看法,认为可以利用AI技术破除AI难关,或许这会成为未来解决类似问题的主要办法之一。
在百度上输入“语音诈骗”、“识别”等关键词,可以看到百度经验的相关帖子,虽然这些“经验”都已经相当古早,但能看出大家与这类诈骗的对抗已然是相当持久。
不管怎样,希望相关的识别技术能早日研究出来。
不知道大家有没有遇到过类似的语音诈骗事件?当真的遇到这类事件应该如何应对最好呢?欢迎大家留言讨论。
相关报道:
https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402
点「在看」的人都变好看了哦!
领取专属 10元无门槛券
私享最新 技术干货