Photo from douban
Microsoft一篇2016年的blog预测了视频会议未来的3个发展趋势:
1. 年轻一代的劳动力(也就是千禧一代)期待更高质量的视频会议服务
2. 视频会议将被应用在更多的场景当中(除了传统意义上的工作会晤)
3. VR技术将把视频会议提升到一个全新的水平
从某种程度上来说,以上三点放在当下来看都没有错,只是2016年的微软没有预测到5G,也忽视了AI。
话又说回来,谁又可以分毫不差地预测未来呢?
但聊一聊总无妨,我们请到了中国国家科技部科学技术专家杨栋,聊了聊他心中视频会议未来的技术发展趋势。
编辑:Coco Liang
策划:Ant Bao & Coco Liang
作者:杨栋
中国国家科技部科学技术专家
腾讯科技游戏语音高级研究员
下一代音视频会议系统必须处理好无缝衔接智能手机、平板电脑和PC桌面系统的问题。视频会议系统应该做到可以随时随地接入转换。这种移动性的需求要求对异构终端设备间的一致性问题进行解决。
线上会议未来会对内容分享有更高的需求:实时、便捷、智能,甚至会有人工智能会议秘书这样的产品需求。这种情况下,显然以公有云为基础的云产品能更系统地解决这类需求问题。
随着5G技术的演进,带宽和时延等问题在一定程度上可以被缓解,但音视频会议语音和视频质量的要求也会越来越高。如上文提到的一致性问题,终端设备对语音和图像做增强的能力也不尽相同,而这种差异往往会带来会议体验不佳的风险。
举个常见的例子,比如一台没有通过任何认证、较廉价的智能手机接入会议系统以后, 可能受制于有限的终端设备降噪能力,会议期间,该设备的噪声会导致整个会议体验变差。
解决方案之一就是以公有云为基础的云端方案。也就是将原来的终端处理方案逐渐移到云端, 把所有问题交给音视频会议运营商来解决,这样会把原来N个设备商风险降维到1。
另外一方面,人工智能技术在视频领域已经取得很大成就,比如视频压缩降噪。音频领域近些年来依赖人工智能也出现了不少的成功案例,但实时音视频领域的应用还没有特别广泛。
值得注意的是,近些年来学术界和工业界涌现了机器学习在降噪方面的成果,在不同程度上解决了音频质量和噪声干扰的问题。一些工业界的降噪产品开始将原有的物理声卡和音视频会议的运营商app之间增加了一层AI降噪层,对双向音频均作降噪。这是终端层面的通用方案,也是解决音频通话质量问题的一个比较有潜力的方向,对解决教育和游戏等对音视频会议平台通话质量要求较高、设备异构程度高,周围环境复杂的行业具有一定的意义。
通常情况下实时性、计算量和降噪能力的均衡是AI降噪落地的主要挑战。
腾讯互娱在AI降噪应用于游戏场景、音视频会议场景方面已经取得一定的成果。感兴趣的同学可以去尝试王者荣耀等实时类游戏的语音功能。
在AI降噪技术方面,腾讯游戏应用了传统数字信号降噪与基于数据驱动的混合模型,并且融合了心理声学模型,计算量小、实时性强、效果优良且适配各种网络终端设备, 对很多嘈杂的游戏环境有相当的降噪能力。
下一代音视频会议对沉浸式的临场体验提出了要求,也就是要创建一个可视、可听、可互动的完全复现真实会议的场景。
人类对声音的敏感度是比较高的,对音频来讲这也有非常大的挑战。除了以上谈到的降噪的问题外,还会面对另外一些比较棘手的问题,比如在移动设备上实现高效的、实时3D虚拟环境声场的重构。
目前我的看法是,用闭式解取代传统的数值方法去大幅度降低计算量是一个比较有潜力的方向。
数值优化通常是通过对物理模型的建模运行,比如对难以获得的闭式微分方程拆解为若干单位(子集),对其求解,这类方法往往子集数量庞大, 计算量也非常大,很难应用在时变移动设备上。
对于沉浸式声场建模也存在同样的问题, 那么如何把传统数值求解的问题转换到另一种形式的闭式解(或者逼近)会是一个解决这类问题的方向。
编者后记:在电影《回到未来》中,马丁从未来时空穿越回来后,与布朗博士发生了这样一段对话
马丁:“布朗博士,我从未来带回来的字,都消失了。”
布朗博士:“这说明未来还没有被决定呢。”
Photo from douban
我想,这也正是人们乐于去聊述未来的原因。
References:
https://www.microsoft.com/en-us/microsoft-365/blog/2016/06/14/the-future-of-video-conferencing/
领取专属 10元无门槛券
私享最新 技术干货