首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >亚马逊空间音频处理技术原理解析

亚马逊空间音频处理技术原理解析

原创
作者头像
用户11764306
发布2026-03-11 08:21:53
发布2026-03-11 08:21:53
50
举报

亚马逊空间音频处理技术原理解析

在每一代Echo设备的研发与升级中,挑战自我,以亲民价格为客户带来最佳音频体验始终是追求的目标。今年,推出了亚马逊自研的空间音频处理技术,旨在增强兼容Echo设备的立体声效果。

以Echo Studio上的该技术为例,它针对扬声器的特定声学设计进行了定制化调整,并运用了如上混虚拟化等数字处理方法。这使得立体声音乐、电视节目和电影原声的听感更贴近听者,拥有更广阔的声场、更高的清晰度和更强的临场感。该技术将Echo Studio转变为一套高保真音频系统,其表现可媲美参考级的立体声设置。人声表演在中央声场更加突出,而经过立体声平移处理的乐器则在两侧更加清晰,从而创造出更具沉浸感的听音体验,还原了艺术家的创作意图。

本文将深入解析如何构建这项空间音频处理技术。该技术重点利用人类感知声音的方式——即心理声学原理,通过结合使用串扰消除扬声器波束成形上混技术,营造出充满整个房间的空间音频体验。

心理声学:宽度、深度与听音区域

在整个开发过程中,通过心理声学特性来刻画立体声像,这些特性包括宽度深度听音区域。随后,研究声波在不同形状和大小的房间中如何与听者相互作用,以及信号处理方法如何影响听者的体验。

宽度

宽度:指立体声像中,可定位元素沿水平(或方位角)平面分布的角范围(宽与窄)。

在确定声场的宽度时,首先考虑可定位元素,例如一个点声源,它会在听者双耳的声学响应中引发时间和电平差异。为了模拟这一现象,比较耳机与扬声器在左右耳响应分离度方面的听音体验是很有帮助的。

与扬声器听音不同,耳机听音缺乏串扰路径。为了使耳机听音更真实,可以使用一个全通信号处理滤波器模拟点声源到一只耳朵的串扰,并使用一个带延迟的低通滤波器模拟到另一只耳朵的串扰。这两个滤波器根据听者头部相关传输函数的相对关系,对其耳部响应进行近似和参数化,这些函数包含了人耳用于定位声音的重要线索。此外,这种滤波器设计确保了对信号频谱(或称音色平衡)的改动最小,从而保留了原始播放内容。

然而,与耳机不同,外部扬声器可以根据其摆放位置,为听者自身创造出串扰。例如,Echo Studio上的左、右扬声器换能器(或称驱动单元)在设备内部间距较窄,而标准立体声对中的扬声器相对于听者则呈60度角分开。

借助Echo Studio的空间音频处理技术,通过串扰消除方法,对每个驱动单元与听者双耳之间的方程组进行建模,然后求逆,从而解耦了驱动单元对的串扰。如果有两个以上的驱动单元,更通用的方法被称为零陷控制,即为所有驱动单元设计滤波器,使得它们在某一耳朵处的声学响应相互抵消。

在这两种情况下,都可以对滤波器设计进行归一化处理,以满足目标抵消增益曲线。该曲线由同侧和对侧耳朵处声能功率随频率变化的比值定义。这可以防止对特定位置的过度拟合,因为听者可能距离不一,或未完全正对设备中心。

一旦为立体声输入设计了驱动单元的串扰消除滤波器,它们就可以与近似的HRTF滤波器结合使用,引入与参考级立体声系统相一致的串扰量。

深度

深度:感知到的声场与听者之间的距离感(靠前与靠后)。

音轨中声音元素定位的距离,与声源和听者双耳之间两个信号的相关性,即相干性有关。例如,来自扬声器的简单左或右声道信号很容易理解,但如果音频与房间的混响混合,音频清晰度会下降,声音听起来就变得靠后。

然而,在扬声器播放时,还需要应对扬声器指向性及其与房间环境的相互作用。例如,扬声器和听者之间的直接声学路径能保持原始内容所需的清晰度。但当声学信号从墙壁反射时,相干性的损失会使感知到的声场后退,并导致声音元素在空间上变得模糊。这就是为什么在消声环境下或通过耳机听到的音轨,听起来比在混响房间中通过外部扬声器听到的音轨更近,甚至感觉在听者头部内部,也更加清晰。在前一种情况下,声学响应是从驱动单元直接到达听者双耳,而外部扬声器则必须应对房间环境的影响。

作为自研空间音频技术的一部分,可以通过精心的波束成形来控制扬声器的指向性。可以对扬声器驱动单元进行滤波,以产生具有特定指向性的声场,该声场在轴向上相干叠加,在离轴向上则相互抵消。也就是说,当听者正对扬声器时,声学响应最大;反之,当听者在正负90度侧面时,声学响应最弱。

因此,实现这种指向性的一种方法是,在正负90度角处设置两个零点,并控制轴向与离轴功率响应之间的抵消增益,或者控制零点形状随方位角的变化。由此产生的波束图案是一个主瓣,其宽度足够大,使得在正负45度方位角的听音窗口内直达声足够强,然后快速衰减,以最小化在更远的离轴方向(会反射到墙壁上)的声能。

这达到了预期效果:使立体声音频的听感更贴近听者,且比在客厅等未经声学处理的典型听音环境中更为清晰。其效果类似于影院中,尽管扬声器距离较远,但能在不同座位区域重现前方声场。

听音区域

听音区域:听音区域与立体声声场之间的映射关系。

听音“甜点”——即高保真音频系统参考级立体声对中的立体声像——在听者位置与立体声扬声器对构成等边三角形时效果最佳。如果听者角度超过正负30度,由于房间反射增强导致扬声器间到耳朵的相干性丧失,听者的幻象中心就会出现空洞。音频混音中的重要元素,如人声,会失去其存在感。如果听者角度低于正负30度,则立体声像会变窄,因为音频元素向中心汇聚。如果听者位置偏离轴线,则立体声像会偏向某一侧。

为了解决这个问题,空间音频技术旨在最大的听音区域内重现立体声像。在实践中,经过串扰消除滤波处理的预期听音区域,与控制扬声器指向性的波束成形设计存在冲突。可以通过执行立体声上混,然后对每个通道应用不同的波束成形滤波器来达成折衷。例如,可以上混为左、右、中三个通道,其中中置声道与“中间/两侧”分解中的“左减右”相关性最小。

上混后的左声道通过串扰消除滤波器处理,该滤波器在虚拟化后抵消右耳的响应;上混后的右声道抵消左耳;而中置声道则通过具有宽主瓣的波束成形进行处理。这意味着人声表演在中央更加突出,而经过立体声平移处理的乐器则在两侧更加清晰,为听者创造了更具沉浸感的听音体验。

目前,团队正持续对全系Echo产品组合的技术进行迭代和优化,力求为客户带来最佳的音频体验。如果想进一步了解波束成形和扬声器在房间声学中的指向性,可以阅读工程团队发表的论文:“Fast source-room-receiver modeling”,发表于EUSIPCO 2020;以及“Spherical harmonic beamformer designs”,发表于EURASIP 2021。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 亚马逊空间音频处理技术原理解析
    • 心理声学:宽度、深度与听音区域
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档