前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >专访腾讯音视频实验室刘晓宇:服务8亿QQ用户的音视频通讯技术如何用到直播中

专访腾讯音视频实验室刘晓宇:服务8亿QQ用户的音视频通讯技术如何用到直播中

作者头像
腾讯多媒体实验室
发布于 2023-03-07 04:41:11
发布于 2023-03-07 04:41:11
1.4K0
举报

1999年,当时还叫OICQ的聊天软件发布了一个新版本,语音通话功能被正式加入,随后,视频通话也被加入。18年后的今天,QQ的月活跃用户已经超过8亿,一个更惊人的数字是,最多的时候,QQ用户每天的音视频通话时长达12亿分钟。

在QQ发展过程中,其背后的音视频通信技术也经历了对外采购,到成立QQ音视频技术中心,自研引擎,再发展壮大为腾讯音视频实验室,开放自研的SPEAR音视频引擎的过程。现在,随着全民直播时代的到来,腾讯又研发并开放了一体化的直播解决方案,并将腾讯直播SDK应用于斗鱼、虎牙、快手等顶级的直播平台。这背后,技术、经验上的不断进步和积累,也有腾讯对中国复杂的网络状况的智能处理

日前,腾讯音视频实验室负责人刘晓宇接受了雷锋网的采访,聊了聊这些问题,并向我们介绍了精细化运营及5G技术来临之际,直播会有哪些更新鲜的玩法。

(腾讯音视频实验室负责人刘晓宇)

腾讯音视频实验室:从无到有,再到支持每天12亿分钟通话

遥远的斯坦福校园内,一位机器学习教授上课的场景被高清摄像机捕捉的画面,通过编码器压缩,以分段发送的方式,通过互联网传输到你的电脑上,再由播放器进行实时解压缩处理,你就能学习到最前沿的课程。

流媒体技术给互联网带来了无限的活力,而当场景变成音视频通讯时,背后的技术就不止复杂了一倍。除了双向的反馈,实时通讯对延迟的要求也变得非常高;另外,回声处理也成了新的问题,“我听到你的声音出来了,我也要说话,这个过程中麦克风是一直开着的,假如不处理回声,你的声音会被再次采集进去,播到你那边。”

在腾讯大厦的腾讯音视频实验室内,刘晓宇向雷锋网做了一个小科普。2005年,他加入腾讯,负责QQ应用层的架构设计,“除了底层的公共组件,好友面板、消息窗口,包括空间、音乐、邮箱等插件化功能,可以理解为你能看到的QQ界面展示出的东西,都是我们开发的。”

2011年,腾讯正式成立了音视频中心,刘晓宇被任命为负责人。尽管QQ在1999年就有了音视频通话功能,但很长一段时间,腾讯都依靠腾讯研究院和第三方技术提供商,没有独立的团队负责音视频通讯。

成立音视频中心,是因为腾讯觉得音视频会是未来的一个爆发点,还有一个重要原因,当时采购自GIPS(后被Google收购)的技术方案,是一个“黑盒子”,出现问题时自己无法找出原因,GIPS又不够重视,这坚定了腾讯技术自研的决心。

刘晓宇介绍,在音视频通讯中,网络问题一直是一个技术难点。检测网络带宽,以平衡视频质量和传输速度的带宽探测,处理丢包、抖动,都需要很深的技术积累。另外,随着移动互联网的发展,设备碎片化越来越严重,适配不同的设备又成了巨大的问题,“我们经常要适配系统的问题,有时候会出现很戏剧化的事情。”有一个版本的QQ,腾讯特意为适配不好的小米手机做了优化,但版本还没发布,小米就发现了问题,自己率先做了优化。互相适应,结果又有问题了。

(为了测试QQ在不同网络中的音视频通话质量,腾讯音视频实验室拉了10多条和用户真实情况一样的宽带,涵盖各个运营商、教育网等)

音视频中心的发展壮大,推动了QQ音视频通话功能的不断革新。现在,QQ用户每天的音视频通话时长达12亿分钟。2015年11月,腾讯正式开放自研的SPEAR音视频引擎,将包括流控策略控制云端化、通道智能化/多通道备份机制、分布式混音和云混音、跨平台通信协议设计、提供跨平台客户端引擎SDK、预连接设计、双人/多人通话平滑切换、通话客观质量评测体系等特性带给更多的开发者。

2016年,腾讯音视频实验室正式成立,最初成立时只有7个人的音视频中心,如今已有80多人。除了继续保障QQ的音视频通话,将它的能力开放出来,在企业级市场上有所作为,也成了音视频实验室的新任务。

从音视频通话到直播:技术、需求都要随人性而改变

2015年,随着4G和智能手机的普及,移动直播开始成为一个新的热点。其实在技术上,直播并不是一个新兴的东西,早在2008年前后,六间房就开始尝试使用Flash的技术进行网页直播。

从网页直播到移动直播,用户的需求没变,但使用的网络环境、设备、直播环境都在发生变化。例如,移动直播要解决Wi-Fi、移动网络的切换问题;而在不同的空间里,保证音质、视频流畅以及光线平衡,又对技术提出了新的挑战。刘晓宇向雷锋网(公众号:雷锋网)举了个例子,最早做音视频通讯时,腾讯向GIPS采购的音视频通话方案经常会遇到投诉,其中的一个重要原因是中国复杂的网络环境,比如南北通问题、用户糟糕的网络连接等。

(消音实验室,关闭大门安静时分贝数仅为17,可以保证每次测试环境的一致)

在应对移动直播时,类似的问题同样存在,这就需要移动技术提供商针对不同的环境进行优化,其中弱网专项优化、抢带宽的能力、手机性能优化、机型适配、后台转码能力等,都会直接影响直播间稳定、清晰度,连麦的实时性和沟通的顺畅。

另外,据刘晓宇介绍,因为用户观看直播的微妙习惯,技术策略上也要做相应的调整。例如,在以前的视频通话中,用户的主要需求是低延时,所以当网络不好时,系统会自动降低视频清晰度。但是在直播中则完全相反,“宁可卡一点,延迟稍微大一点,也不要把分辨率降下来”;在研究中,刘晓宇的团队还发现,用户在观看直播时非常随性,会习惯性地滑到下一个直播,这就需要系统提前缓存画面,让用户快速切换直播。

现在,腾讯已经有了一整套的直播技术解决方案,只需要几行代码,就可以让企业接入腾讯直播模块,拥有腾讯的直播技术支持。

这套音视频直播AVL(Audio Video Live)方案,依托腾讯的SPEAR音视频通信引擎,通过腾讯直播SDK可打造跨平台一对多、多对多的超清酷炫直播场景。除了能够提供基础的高清、秒开、高音质、转码、鉴黄能力外,还具备连麦、实时录制、音频直播、美颜、水印、混音、IM等特色能力。同时兼具旁路直播、屏幕分享、人脸识别、滤镜、挂件等“冷僻”能力,全部能力达到17项之多,是目前能力覆盖最全的主流直播SDK。其流畅度、音质、低延迟、下行抗丢包4项指标位居行业第一,其他核心数据也接近行业最佳

(测试真实通话时的质量,过程中的各项数据都会被实时记录下来)

音视频直播AVL 的一个重要应用是直播中的连麦,现在,斗鱼、虎牙和快手,都使用了这个服务。斗鱼直播产品规划经理汪楚峰也接受了雷锋网的采访,据他介绍,成立于2014年的斗鱼,现在每天开播的直播间数量超过4万,每天的活跃用户超过2000万。

2015年,斗鱼开始使用腾讯提供的直播连麦功能,除了低延迟,腾讯还提供了虚拟装扮、主播变声等特色功能,另外在音乐场景中,腾讯对麦克风收音和音质提高上也有深入的优化。

垂直场景、语音识别、VR,新技术之下直播还有新玩法

今年初的春节期间QQ视频通话里做了一个视频表情彩蛋的玩法,说出“么么哒”屏幕上会出现红唇表情,说“新年快乐”、“恭喜发财”也会有对应的惊喜表情。

这只是语音识别在视频通话上的初步应用。直播平台的竞争已经出现“大鱼吃小鱼”的态势,在刘晓宇看来,技术将成为直播平台差异化的一个突破点。

今年,NOW直播已经开始测试绿幕直播,当用户在直播过程中,环境背景为指定绿色时,可替换任意手机相册内的照片或视频。这种应用在电影制作中的技术,可以让直播有更创新的玩法,有分析人士认为,它可以应用于二次元主题直播。接下来腾讯也会将该能力集成到直播SDK中去,开放给更多直播平台使用。

(Now直播的绿幕直播)

现在的直播,秀场和游戏直播占了绝大多数,但同时,也开始出现越来越多的垂直场景,如金融、教育类直播,在这类场景中,除了主播和观众,还涉及到屏幕,现在,腾讯的直播技术已经能解决三方同步、满足屏幕解码和CPU控制的问题。

另外,VR直播曾经被高度看好,刘晓宇告诉雷锋网,目前VR直播的技术障碍主要在于,要保证多人同时观看的沉浸式体验,直播源就要传输360度的全量数据,而这个数据量是非常庞大的;另外,在采集全景视频时,画面叠加部分的拼接、分割,镜头的矫正都还有很长一段路要走。

不过,科技行业永远是进步最快的领域,根据工信部和三大运营商的规划,2020年,中国5G将正式商用,刘晓宇说,“和4G相比,5G会是一种质变,我们会时刻关注这里的技术发展。”

(原文转自雷锋网)

扫描下方二维码了解更多:

联系我们

avlab@tencent.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯音视频实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【JeecgBoot AIGC】AI工作流配置与流程节点全解析
AI 工作流通过将复杂任务拆解为更小的步骤(即流程节点),从而降低系统复杂度,提高执行效率。通过合理的工作流编排,可以减少对 Prompt Engineering(提示词工程)和单次 LLM 推理的依赖,提升 AI 任务的稳定性、可解释性和容错能力。
JEECG
2025/06/19
990
普通人如何更好使用AI辅助-了解AI大模型和AI智能体应用的本质逻辑
对于GPT出来已经2年多快3年的时间了,我上个周末在参加惠州一个CIO私享会交流的时候,还初步梳理了下AI整个发展的脉络。
人月聊IT
2025/06/24
220
普通人如何更好使用AI辅助-了解AI大模型和AI智能体应用的本质逻辑
AI驱动的 "知识库" 新时代
知识库在各行各业早已不是什么新鲜事物。 从 LexisNexis、Thomson Reuters Knowledge Base 到 ClinicalKey,这些数据库在存储和检索信息方面一直扮演着关键角色。近年来,人工智能(AI)从根本上改变了知识库的能力,许多数据库也纷纷进行了升级。但 AI 知识库究竟能为我们带来什么帮助?
Youna
2025/06/24
270
AI驱动的 "知识库" 新时代
【JeecgBoot AIGC】AI知识库实战应用与搭建
AI知识库是一个结合了自然语言处理(NLP)、向量搜索和大语言模型(LLM)的智能信息管理系统,旨在高效存储、检索和管理知识,使AI能够更精准地理解并回答用户的问题。
JEECG
2025/06/11
220
四大开源AI Agent开发平台深度对比分析和选型参考报告-深度研究
Hello,大家好,我是人月聊IT。因为刚好拿到了Teamo的邀请码,因此做了一个简单试用和总结。
人月聊IT
2025/06/24
180
四大开源AI Agent开发平台深度对比分析和选型参考报告-深度研究
探索Dify:开启大语言模型应用开发新时代
在当今科技飞速发展的时代,AI 技术的迅猛发展令人瞩目。从最初简单的图像识别,到如今复杂的自然语言处理,AI 正以前所未有的速度融入我们的生活和工作。大语言模型作为 AI 领域的重要突破,更是成为了众多开发者关注的焦点。它能够理解和生成自然语言,为智能客服、内容创作、智能问答等应用场景提供了强大的支持。
正在走向自律
2025/05/24
2840
探索Dify:开启大语言模型应用开发新时代
谈AI通用智能体Manus-是资本炒作盛宴还是真实力?
最近几天Manus很火,所以刚好借这个机会录一期关于大模型关于AI智能体相关的一个话题。首先我们还是进Manus的首页稍微看一看,这个首页也很简单,因为现在必须要有相关的邀请码,才能够自己进去试用。
人月聊IT
2025/06/24
60
谈AI通用智能体Manus-是资本炒作盛宴还是真实力?
有哪些值得关注的知识库&知识管理工具?
在当今信息爆炸的时代,知识可谓企业最宝贵的无形资产。有效的知识管理不仅能减少信息壁垒,还能加速决策过程、降低培训成本并促进创新,因而成为企业数字化转型的核心战略。今天就让我们一起来看看2025年16款值得关注的知识管理工具,寻找不同场景下的知识管理最优解。
你掉的是这个金键盘还是银键盘
2025/06/12
2000
远行IPaaS融合集成平台+AI大模型智能体能力初步实践总结
今天简单聊下远行IPaaS融合集成平台对AI大模型能力的一个集成和场景化应用实践。这个事情实际我们开始的比较晚,核心的一个原因还是具体的应用场景没有想清楚。
人月聊IT
2025/06/24
100
远行IPaaS融合集成平台+AI大模型智能体能力初步实践总结
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
MaxKB = Max Knowledge Base,是一款基于 LLM 大语言模型的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一下,你有一个虚拟助手,可以回答各种关于公司内部知识的问题,无论是政策、流程,还是技术文档,MaxKB 都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等等
汀丶人工智能
2024/08/05
12.4K0
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
【重磅】JeecgBoot 里程碑 v3.8.0发布,支持AI大模型、应用、AI流程编排和知识库
AI赋能低代码: 目前提供了AI应用、AI模型管理、AI流程编排、AI对话助手,AI建表、AI写文章、AI知识库问答、AI字段建议等功能;支持各种AI大模型ChatGPT、DeepSeek、Ollama、智普、千问等.
JEECG
2025/04/18
1990
【AI流程应用】智能知识库搭建与实战应用
通过以上步骤,您已成功创建一个能够理解 积木报表 和 JeecgBoot 并智能应答的 AI 机器人。
JEECG
2025/05/21
430
详解几种常见本地大模型个人知识库工具部署、微调及对比选型(1)
这几年,各种新技术、新产品层出不穷,其中,大模型(Large Language Models)作为AI领域的颠覆性创新,凭借其在语言生成、理解及多任务适应上的卓越表现,迅速点燃了科技界的热情。从阿尔法狗的胜利到GPT系列的横空出世,大模型不仅展现了人工智能前所未有的创造力与洞察力,也预示着智能化转型的新纪元。然而,大模型的潜力要真正转化为生产力,实现从实验室到现实世界的平稳着陆,还需跨越理论到实践的鸿沟。
zhouzhou的奇妙编程
2024/06/11
20.6K0
【重磅】敲敲云零代码 "AIGC应用大模型" 上线了~
敲敲云是一个创新的APaaS(应用平台即服务)零代码平台,结合了AI应用开发和知识库管理,旨在帮助企业快速构建个性化的业务应用。
JEECG
2025/04/15
1550
Deepseek与manus是何区别?深入解析AI Agent和智能体编排
DeepSeek的火爆其实是可以预见的,它的底座和技术足够扎实,足够优秀。必然是大模型里面一颗冉冉升起的璀璨新星,但是manus的胜出则体现的的是大模型的智能应用层面,也就是AI Agent的概念。二者都展现了各自独特的特性和应用场景。深入理解它们之间的区别,有助于我们更好地把握AI技术的发展方向。我是Fanstuck,致力于将复杂的技术知识以易懂的方式传递给读者,热衷于分享最新的行业动向和技术趋势。如果你对大模型的创新应用、AI技术发展以及实际落地实践感兴趣,那么请关注Fanstuck。
fanstuck
2025/03/10
8553
Deepseek与manus是何区别?深入解析AI Agent和智能体编排
Dify 与 FastGPT 流程编排能力对比分析
在人工智能快速发展的今天,大语言模型(LLM)应用平台正在重塑各行各业的工作流程。其中,Dify 和 FastGPT 作为两款具有重要影响力的工具,凭借各自独特的流程编排能力,为开发者和使用者提供了强大的支持。流程编排的优劣直接影响着应用的效率、灵活性和可扩展性,因此深入理解这两个平台的特点对于选择合适的工具至关重要。
井九
2024/10/12
2.7K0
Dify 与 FastGPT 流程编排能力对比分析
【JeecgBoot AIGC】AI模型配置实战指南
源码下载:https://github.com/jeecgboot/JeecgBoot
JEECG
2025/05/29
1700
一文读懂常见的几种 LangChain 替代品
在 LLM (大规模语言模型)应用开发领域,开源框架扮演着至关重要的角色,为广大开发者提供了强大的工具支持。作为这一领域的领军者,LangChain 凭借其创新设计和全面功能赢得了广泛赞誉。但与此同时,一些替代框架也应运而生,为不同场景下的需求提供了更优选择。
Luga Lee
2024/11/01
1.6K0
一文读懂常见的几种 LangChain 替代品
AI双轨革命:DeepSeek与Manus
DeepSeek与Manus是当前人工智能领域备受关注的两款产品,它们在技术定位、核心能力及适用场景上存在显著差异,但并非直接竞争关系,而是形成互补。
云惑雨问
2025/03/12
2100
【愚公系列】《Manus极简入门》007-三分钟用Manus打造一个智能体
在人工智能与虚拟交互深度融合的当下,智能体正以前所未有的速度重塑着各个领域的运作模式。从智能客服的精准答疑,到工业场景中自动化作业的精准执行,智能体已成为推动产业变革的关键力量。而Manus,凭借其卓越的动作捕捉与交互技术,为智能体的开发与应用开辟了全新的可能路径。
愚公搬代码
2025/05/28
1570
【愚公系列】《Manus极简入门》007-三分钟用Manus打造一个智能体
推荐阅读
相关推荐
【JeecgBoot AIGC】AI工作流配置与流程节点全解析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档