鸡尾酒会效应说的是有关人的听觉的理论,即在嘈杂的鸡尾酒会上,人的听觉系统可以选择性地接收自己感兴趣的谈话内容,而自动忽略其他噪声。但这项源自人类本能的特殊技,却难倒了智能音箱等语音交互设备。将其置身于嘈杂环境当中,由于各路声音的不断冲击,它们会逐渐陷入"我在哪儿"、"我是谁"、"你在说什么"的死循环当中。不信?你可以试试。
人类与AI的听觉差异
人类能具有听觉选择能力,是因为我们的耳膜并不是像麦克风一样是直接裸露在空气中的。你的耳廓、头部、肩膀、躯干等身体部位对于声音来说像是一个"迷宫",来自不同方位的声音需要从不同的入口进入,经历上述部位的一系列反射后最终到达"迷宫"的中心——耳膜,然后你的大脑就能感知到这个声音啦。
而智能音箱是依靠麦克风来接收声音,攻(工)城(程)狮(师)们从世界各地搜罗各种声音数据,没日没夜地投喂它们。但是,机器们学习的效果不是十分理想,鸡尾酒会问题至今仍然困扰着世界各地的语音攻城狮们。
给AI的麦克风做一个"耳朵"
知道了人类与AI听觉系统的差异之后,攻城狮们认为可以通过给麦克风做一个"耳朵"来增强它们的辨音能力,不过这个耳朵跟我们的耳朵差别有点大,形似蜂窝,学名叫做声学滤波器,我们暂且叫他"蜂窝耳"吧。这个"蜂窝耳"由外中内三层半球壳嵌套而成,每一层球壳上都随机设置大小不一的圆孔,球壳之间随机插入了若干块横向和纵向的挡板来制造大小不一的腔体,在球心位置则放着一个单通道的麦克风。这些大小随机的圆孔和隔板使"蜂窝耳"具有高度的空间不对称性,因此会对来自不同方向的声波起到不同的调制效果。
有了硬件设备,我们还需要再完善一下软件。简而言之就是训练一个算法,让机器提取这些声波身上的独家特征,最终定位和识别来自不同方向的声音。超材料结构+智能算法的组合,只用一个麦克风就能实现多声源的实时定位和分离。
"蜂窝耳"成效显著,2.0版本正加紧开发中
研究人员针对多个生活场景进行的听音测试。"蜂窝耳"放在中间,周围均匀放置16个音响用于播放测试所用的声音。测试所用到的声音包括马路上的鸣笛声、动物的叫声、各种乐器声、人说话的声音等等。当空间中同时发声的声源不超过三个,定位与分离的准确率可以达到90%以上,耗时也不超过1s,是不是棒棒哒!
"蜂窝耳"是语音技术领域一个里程碑式的成果,当然,它现在的技术水平还只是初级阶段,声学结构设计与后端算法的融合应用等方面还有很大的提升空间,"蜂窝耳"2.0版本正在加紧研发当中。语音技术的不断成熟,可以让我们的电子设备搭载更加高级的语音交互系统,进而提高电子设备的智能化水平,让人机交互更加便捷、流畅。
领取专属 10元无门槛券
私享最新 技术干货