AI(人工智能)想必大家已经见识过它的逆天神技了,前段时间的AI换脸、AI修复照片不断突破网友的想象力,如今,AI科技又在往更(hei)开(ke)阔(ji)的领域进发。
麻省理工学院(MIT)最近一项研究发现,经过训练的 AI 能够从声音里辨别出你的性别、年龄和种族,甚至仅需听短短6秒的语音,就能猜出你大概长什么样。
(果然宇宙已经没有什么可以阻止人类的脑洞扩张了......)
MIT研究人员,设计和训练的神经网络Speech2Face,就能通过短短的语音片段,推测出说话者的年龄、性别、种族等等多重属性,然后重建说话人的面部。
那么,这样逆天的黑科技到底是基于什么原理呢?
听音辨容科技其实和当下火爆的AI换脸的原理相通,同属于生物识别技术,只不过AI面部识别主要借助于视觉图像,而声音识别则主要借助于声纹。
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,发声器官舌头、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。
另外一个人说话的声音往往透露着个人的某些特质,语言、口音、速度通常会体现出他的民族、地域、文化等特征。我们经常也会从谈话人的声音去猜测他来自哪里。从生物学角度来看,年龄、性别、嘴巴形状、面部骨骼结构,所有这些都会影响人发出的声音。AI正是根据语音和相貌的关联性做出推测。
基于这个原理,研究人员提取了几百万个YouTube视频,通过训练,让深度神经网络学习声音和面部的相关性,找到说话的人一些基本特征,比如年龄、性别、种族等,并还原出相貌。而且在这个过程中,不需要人类标记视频,由模型自我监督学习。这就是Speech2Face模型。
AI的辨声识人主要包括两个解码器,语音编码器和面部解码器。
语音编码器模块是一个CNN,将输入的语音声谱图转换成伪人脸特征,并预测面部的低维特征,随后将其输入人脸解码器以重建人脸图像。面部解码器的输入为低维面部特征,并以标准形式(正面和中性表情)产生面部图像。
在训练过程中,人脸解码器是固定的,只训练预测人脸特征的语音编码器。语音编码器是作者自己设计和训练的模型,而面部解码器使用的是前人提出的模型。
从训练结果看,Speech2Face 能较好地识别出性别,对白种人和亚洲人也能较好地分辨出来,另外对 30-40 岁和 70 岁的年龄段声音命中率稍微高一些。
除了比较基础的性别、年龄和种族,Speech2Face 甚至能猜中一些面部特征,比如说鼻子的结构、嘴唇的厚度和形状、咬合情况,以及大概的面部骨架。基本上输入的语音时间越长,AI 的准确度会越高。
你话说的越多,你的脸就暴露得更多!
可怕吧?等等,先收收你惊愕的双下巴,再逆天的科技,还是存在不足之处的。
人的声音会骗人,当然也会骗人工智能。研究人员发现,Speech2Face也会存在bug,比如将未经历变声期的小男孩识别为女性;对一些说话者的口音判断错误,也导致年龄偏差大等等。
不同的语言也有影响。研究人员提出了一个案例,同一男子分别说中文和英文,AI却分别还原出了不同的面孔样貌。当然,这也跟口音、发声习惯等相关。
另外,研究团队也表示,目前这套系统对还原白人和东亚人的面孔效果更好。可能由于印度和黑人的数据较少,还原效果还有待进一步提高。
研究人员指出,Speech2Face的局限性,部分原因来自数据集里的说话者本身种族多样性不够丰富,这也导致了它辨认黑种人声音的能力比较弱。
不过研究团队有特别声明,这个神经网络不追求完全精确还原单一个体的脸部图像,Speech2Face模型主要是为了研究语音跟相貌之间的相关性。
想象一下,你在听电话的时候,会自然而然地脑补声音那头的人的容貌,而未来,这一项有可能由Speech2Face来代劳,经过语音识别之后,将电话另一端的人的卡通图像显示到你的手机。这也是研究人员畅想的技术应用。
麻省理工的这项研究是AI领域一个相当卓越的进步,虽说技术善未成熟,但相信不用多久,就会有更大的突破,在实际应用中大有作为。AI科技未来将会创造一个怎样的奇幻世界呢?相信一定会为我们创造更多意想不到的惊喜,让我们拭目以待吧!
文章整理自网络资源
如有侵权,请联系后台删除
领取专属 10元无门槛券
私享最新 技术干货