首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google发展极低比特率编解码器,大幅提高语音通信品质

Google开发了高品质低比特率的语音编解码器Lyra,强调即便在速度缓慢的网络上,也能提供顺畅的语音通信体验。Google在Lyra使用先进的机器学习技术,模型在经过数千小时的语音训练后,能够高性能的压缩和传输语音信号,进而在低带宽中支持高音质语音通信。

像是WebRTC这样的即时通信框架,以及压缩技术的发展,使得声音以及视频电话越来越普及,数十年以来,编解码器都是媒体应用程序的重要组件,让需要消耗大量带宽传输资料的应用程序,能够更有效地传输资料,并且让用户可以随时在各种网络环境中,进行高品质的通信。

无论是视频还是语音的编解码器,其目标都是要提供更高的信号品质,但使用更少的资料和达到更小的即时通信延迟,Google提到,虽然视频比音频要占用更多的带宽,但是现在视频编解码器,已经可以达到比部分高品质语音编解码器还要低的比特率,通过结合低比特率视频和语音编解码器,就可以在低带宽的网络中,提供高品质的视频通话体验。

不过音频编解码器的比特率越低,语音信号的清晰度就越差,声音也就越像机器人,为了解决这个问题,Google使用机器学习技术创建了Lyra。Lyra的概念很主动,就是每40毫秒从语音中截取特征或是独特的语音属性,并在将其压缩后进行传输。

这些特征和属性可以被用来重建语音信号,传统的参数编解码器仅是简单地将特征截取出来,并且直接在接收端重建信号,虽然达到了低比特率的目的,但是声音听起来像机器人并不自然。而这个缺点也促使研究人员开发新一代音频生成模型,来产生高品质的语音,像是DeepMind的WaveNet就是其中一种,目前Google语音通信软件Duo,就是将WaveNet实际用于真实世界的成果。

Google以这些生成模型为基准,创建能够使用更少资料重建语音的新模型,与当今许多流媒体和通信平台一样,Lyra也使用波形编解码器,来达到低比特率且高品质的声音,但波形解码器缺点在于,要达到高品质语音,必需要逐一压缩和发送每个信号样本,这可能需要稍高的比特率,但在许多的情况中,可能没有必要达到如此自然的声音。

生成模型还有另一个需要注意的缺点是,其具有较高的计算复杂度,而Lyra则选用循环生成模型WaveRNN来解决这个问题,该模型以较低的比特率运行,但是在不同频率范围平行生成多个信号,在之后以特定的采样频率,结合到单一输出信号中。

这样的设计让Lyra不仅可以在云计算服务器中执行,还可以在中端的手机上即时运行,处理延迟约为90毫秒,与其他传统语音编解码器相同。该生成模型经过数千小时的语音资料训练,与WaveNet类似,可以精确地重建输入的音频。

现在基于WebRTC的VOIP应用程序中,最受广泛使用的开源编解码器便是Opus,在比特率32kbps的情况下,可以提供与原始音频没有区别的声音品质,但是在带宽受限制、仅能使用6kbps比特率的情况,声音品质便会明显下降,其他编解码器包括Speex、MELP和AMR,虽然也都能以与Lyra相当的比特率运行,但是声音皆会出现失真,导致变成机器人的声音。

Lyra目前被设计成以3kbps的比特率运行,而且经过测试证实,在该比特率条件下运行,Lyra性能比其他编解码器都还要好,且达到与Opus在8kbps比特率的声音品质,可省下60%以上的带宽。

Google提到,Lyra可被用于数十亿新兴市场的用户,以较低的比特率编解码器,提供更好的声音品质,Lyra也可被用在云计算环境中,让各种网络和设备的用户,能够顺畅的聊天,搭配最新的图片压缩技术AV1,即便用户使用56kbps调制解调器连上互联网,也可以进行视频聊天。

Google移动设备语音聊天应用程序Duo,现在也使用Lyra,来提高在低带宽网络上的语音品质,Google接下来还会继续研究使用GPU和TPU来加速运算。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210228A06VA100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券