Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯云上快速爆发的腾讯会议

腾讯云上快速爆发的腾讯会议

原创
作者头像
周小军@运维专家
修改于 2020-04-28 02:19:05
修改于 2020-04-28 02:19:05
9.2K0
举报

庚子新春,一场突其而来的疫情打乱了中国经济秩序。但经济终要复苏,此时,线上会议服务成为企业远程工作的重要协同工具。

于是,腾讯会议春节期间马上紧急召回技术团队,在现场或在远程,通过各种手段来支撑起会议服务。

团队不仅通宵达旦地对服务的架构、承载能力做了优化,同时腾挪腾讯云全国资源进行多次扩容。日均扩容云主机近1.5万台,8天总共扩容超过10万台云主机,涉及超百万核的计算资源投入。强大的云资源保障下,会议完美的扛住了全国用户的访问请求。在线用户天天攀升,稳健地顶住了多次的流量高峰。

全球云数据中心支持

全球化的云数据中心

短短几天要扩容百万核心,资源供给难度极大。如果按一台物理服务器64核心来计算,需要上架近二万台物理服务器。加上春节和疫情双重叠加,物流困难重重,服务器资源供给的任务根本是不可能完成的。

幸而借助腾讯云数据中心资源弹性和能力,资源规划团队每天都能从各地的云数据中心快速供应带宽、计算和存储资源。短短一周内,云帮助腾讯会议快速调度到支撑海量用户的资源。

腾讯云各区域数据中心网络支持城市和园区颗粒度,能够精细化地分配IP和业务部署。电信、联通、移动和中小运营商的用户都能按IP调度策略分别动态定向到不同的接入点VIP,精细化定向覆盖网络运营,提高了用户按地域、按运营商等维度访问腾讯会议服务的质量,省却了开发团队在架构分布上的规划投入。

腾讯会议在海外还有大量的用户接入,借助腾讯云海外支持能力,运维团队快速在欧美、日韩、东南亚和中东等地部署了接入点和业务逻辑层,通过低延迟全球骨干网络,实现海外用户的会议音视频接入,实现了全球的远程会议功能。

腾讯会议使用了全球应用加速 GAAP,将当地区域用户通过加速节点转发到距离最近的业务接入服务。GAAP通过全球节点之间的高速通道、转发集群及智能路由技术,实现各地用户的就近接入,通过高速通道直达源站区域。

计算资源交付

依赖于腾讯积累的标准化CMDB,底层的数据中心物理机和虚拟机的运维方式采用了标准化的包发布方式。

CMDB将业务所依赖的各种依赖包、配置、文件、权限、日志、流程和测试用例等以配置库的方式存储。包发布系统在应用CMDB的基础上实现一键交付的能力,可以在一小时以内同时交付上万台实体机和虚拟机。

包发布中的每一个软件包是完成特定功能所需文件的集合,包发布系统包括了一键式的部署流程,包括配置下发(统一管理类似 nginx.conf这样的配置文件),服务部署(上传进程包并运行),进程管理(对进程进行跟踪,保证进程意外退出时及时拉起)等功能。

包管理界面
包管理界面

腾讯自研服务器

服务器硬件上,会议使用了腾讯自研星星海服务器。这是星星海服务器首次承担如此大规模的百万核心级计算资源保障任务。

星星海是腾讯第一款自研服务器,服务器除了在软硬件系统上进行了自主研发设计外,还在芯片等关键部件上与供应链企业进行了深度定制。

使用星星海有效提升了腾讯云IaaS在腾讯会议硬件质量验收、云化适配和故障检测修复等环节的效率,进而也提升了腾讯云大规模计算资源的调度效率。腾讯会议因此能够实现单日几十万核计算资源的快速扩容。”

星星海还具备故障热迁移能力,系统监测到某一台物理服务器状态为不健康,腾讯云的快速故障热迁移能力能够在用户无感知的情况下,将子机迁移到健康的母机上,保障业务平稳运行。

云原生架构

如果说腾讯的QQ、微信和游戏等业务是从自研架构迁移到腾讯云,腾讯会议完全就是一个完全诞生于原生云的业务。在云上,会议使用了容器服务中间件数据库和存储等全套服务。

会议在一个月内,从一地部署扩张到广州、北京、上海和重庆等全国多地部署;从一个单一应用架构变化为多地SET化架构;各种应用服务不断拆分成更多的服务模块;和企业微信、微信等多个产品的联动;从中文版本发展到多语言版本等等。每天都遇到各式各样的花式挑战。

在强大云原生平台的支持下,腾讯会议架构能够便利的弹性伸缩,经受住了高海量并发的考验。

TKE云原生容器服务

腾讯会议的接入和逻辑层使用了腾讯云的TKE(Tencent Kubernetes Engine ),TKE是基于基于原生 kubernetes的容器管理服务,部署高效,扩容效率极高。

基于不可变基础设施的理念,TKE容器提供了统一的应用交付模式。腾讯会议业务应用的二进制文件、配置、环境等打包成一个镜像,在开发、测试和生产环境中使用同一个镜像,保证了不同环境中交付的不可变,业务迭代版本可以在流水线中的敏捷开发和快速交付。

除了支持Kubernetes原生特性,针对业务的应用特性,容器团队在TKE基础上做了应用层的封装,增加了服务发现与路由管理的支持,例如支持内部的名字路由服务L5;支持应用CMDB;支持容器网络与自研网络互通;内部的各种CI流程打通,包括蓝盾、OCI、QCI和包发布等公司的CI流程; 提供全国、全球各大区域的应用部署、升级、弹性伸缩等核心服务能力。

会议服务的注册、登录、接入、长连接、混音、流控等服务完全托管在容器平台上,以镜像为唯一的交付标准,实现自动扩缩容和基于SET的资源调度能力。大的模块下有上万个POD。容器的秒级扩容能力,极大解放了运维扩容的效率。

数据库和中间件

会议后端的数据库采用各种云原生的数据库,包括MySQLRedisMongoDB等。业务在全国各地实例资源上,自行实现了多地云数据中心的同步写和异地读能力。

会议使用云MySQL用来存储会议用户信息,落地数据等数据。

云Redis(TencentDB for Redis)用来存储会议房间,会议列表,文档列表等缓存信息,云上的Redis扛住了会议高峰期每秒上千万级的读写并发QPS。

使用了云数据库之后,会议的运维和开发不需要专门的DBA。通过控制台,运维和开发可以即时查看各种数据库的连接、CPU利用率、IO利用率、慢查询等数据,一键生成异常诊断报告,获知数据库服务的健康得分,从报告中定位出异常因素,进行慢查询语句优化。

云数据库的异常诊断报告
云数据库的异常诊断报告

譬如上图的案例,可以分析到数据库实例中有大量的全表扫描查询,导致CPU利用率超过阈值。通过在控制台查询慢查询SQL语句,开发不断优化应用性能,解决了此实例的性能瓶颈。

有了强大的云PaaS服务伸缩能力,几个会议运维工程师才能够在短短时间内同时支持计算资源扩容和PaaS服务扩容。

通过腾讯云的CAM权限管理,会议内众多的开发团队能够按实例级的颗粒度来进行权限控制。譬如A团队申请的实例,可以设置B团队具有浏览权限,但不能重启和销毁。运维团队拥有更多的权限,可以浏览、重启、观测所有会议业务的实例资源,但没有销毁权限。,以保证业务安全

PaaS服务有默认的备份策略,也可以配置个性化的备份策略,完善的全托管备份方式之下,运维团队省却了传统运维大量的常规工作。

运维体系保障

容量巡检

会议的容量巡检用于衡量服务模块的计算和网络水位,结合业务大盘指标及各个模块的服务指标,可以获知到服务模块的负载情况,结合扩缩容调度,能够实现业务的性能与成本间的平衡。

容量巡检系统从基础数据中拉取服务器的计算和网络的利用率,在实时流计算中按模块维度进行聚合。采用不同的容量计算方式,得出模块级别的利用率,并上向汇聚成服务和业务的总体平均利用率。

在业务高峰值班期间,容量巡检通过人工巡检和机器人巡视二种方式来进行,上百个服务模块的容量和质量数据由企业微信机器人定时巡检,重点模块和高负载模块被推送到值班群,极高负载的模块和机器则通过微信、小程序或电话告警的不同方式触达值班人员。

同时还把模块的利用率通过大屏展示到值班大屏幕上,直观了解各重点模块的曲线变化。

通过机器人和工程师相互结合的值守,减少了人工巡视的工作量,工程师从而把时间聚焦在重点负载视图和问题处理解决之上。

负载机器人在工作群里定时推送容量巡视报告
负载机器人在工作群里定时推送容量巡视报告

容量压测

春节以来腾讯会议的开发团队每天都要快速迭代几十个大小版本,包括BUG解决、新功能上线、架构优化和性能优化等,为了衡量新版本核心业务链条的健壮性和性能,每天晚上使用高峰过后,测试团队都要在凌晨时间进行大大小小的模块级、系统级和SET级压测,及时发现会议自身和周边服务的短板。

每天压测出来的各种问题,开发团队要在下半夜紧急修复版本,回滚旧版本,或者紧急扩容新功能服务,以保证上午业务高峰期服务的高可用性。

应急预案

团队提前准备了各种应急预案,根据流量、容量水位和质量数据的变化,做出SET调度、服务柔性等分级决策。

应急预案包括了服务容量达到60%,80%,90%等不同水位,在服务级和系统级的策略手段。譬如接入层限频,并发布限流公告;核心模块开启熔断;全国各SET的人工流量调度;视频降码率等。每个策略有主备责任人紧急操作实施。

最终由于容量准备周全,服务健壮性强,众多问题在压测环节得到优化,准备的应急预案都没有实施。

会议高峰值守

每天会议团队的工作日志为,上午7点开始上午高峰值守,11点总结,中午12点到14点问题优化,下午14点到18点进入下午高峰值守,18时当天会议总结,晚上各个模块的版本迭代发布,23时至凌晨2时进入每天例行压测或演习,2时至6时解决压测中出现的问题。

快节奏的工作日志下,团队只能小憩二三个小时,每天周而复始。

由于疫情,开发、运维、测试和周边支持团队分隔在全国各地,这个时候腾讯会议成为各团队之间高效协同的核心武器。

总结

腾讯会议是一款真正基于云原生的SaaS产品,短短一二周内,会议产品凭借强大的云原生架构,从最早的广州云,快速扩容到全国几大区域的SET,以及全球几十个海外节点接入,用户量从春节前的几十万在线增长到数千万在线,日活跃用户上亿。这在传统的数据中心是极难实现的目标。

腾讯会议人数不多的业务运维团队,通过腾讯云后端IaaS、云PaaS运维服务支持,才能够高效的支撑了海量流量的服务保障。

通过业务和系统的可观测性,及时掌握业务和系统瓶颈,快速定位问题,及时优化,保证了业务的高可用性。

腾讯会议的春节云上成长经验,希望给更多的,通过公有云高速成长的业务参考借鉴。

腾讯会议春节值守作战室
腾讯会议春节值守作战室

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯云TStack白皮书
腾讯云TStack是腾讯基于自身强大技术能力和海量运营经验推出的私有云平台,提供集IaaS、PaaS和SaaS为一体的综合云服务解决方案;支持对国产CPU的虚拟化,并通过云管理平台软件提供云主机、云存储、云网络和云负载均衡等IaaS层基础功能。大量私有化部署经验,具有高稳定性、统一管理、可视化运营等特点,强兼容性可与国产服务器实现良好适配,助力政府、企业构建稳定安全的云环境和健康的云生态。
腾讯云TStack
2020/06/05
8.8K7
从 DAU 5 万到用户数破亿,揭秘腾讯会议增长背后的技术实践
10.5 个人开发的一款产品 ,在正式上线两个月后,其日活用户就超过 1000 万。不到一年,它的注册用户就突破 1 亿。并且,其国际版在全球超 100 个国家和地区上线。过去一年,它支撑了 3 亿场会议。这是腾讯会议正式发布一年来取得的成绩。
深度学习与Python
2021/01/21
1.5K0
春节保卫战:腾讯百万 QPS 线上环境云压测方案解析
导语|春节期间腾讯大部分业务进入流量备战的紧张时刻。压测相比于监控而言,是更具主动性的筹备手段。通过高负载、真实流量的预演,探测系统的瓶颈和发现风险,是服务质量保障体系的重要一环。云压测主要聚焦在压测平台的发压端基础能力构建,本文作者张泽强分享云压测备战春节期间从压测模型选型、用例编写、测试数据构建到压测报表分析的压测方案。期望对你有帮助。 目录 1 背景与挑战 2 解决方案     2.1 压测模式选型     2.2 压测用例编写     2.3 测试数据构造     2.4 压测报表分析 3 实践案
腾讯云开发者
2023/02/13
1.2K0
春节保卫战:腾讯百万 QPS 线上环境云压测方案解析
春节微信访问突发,存储业务如何平稳度过?
腾讯技术工程官方号
2017/11/30
1.2K0
春节微信访问突发,存储业务如何平稳度过?
20+云原生最佳案例实践,企业上云的秘诀都在这儿
腾讯云原生 随着云原生的火热发展,云原生技术已无处不在,逐步渗透到公有云、数据中心、边缘等多样化的客户场景。腾讯云原生产品体系和架构已非常完善,涵盖了软件研发流程、计算资源、架构框架、数据存储和处理、安全等五大领域的多个场景。依托这些云原生产品,我们正在为不同行业、不同规模和不同发展阶段的数十万家客户提供云原生服务。 让用云“更简单” 在服务这些客户的同时,我们进一步明确了腾讯云原生的定位,就是成为企业数字化的助推器,让用云“更简单”。 企业用云的目的归根到底,还是在于利用云厂商在技术和资源这里的规模化效应
腾讯云原生
2022/01/17
1.9K0
优云新一代智能化运维管理解决方案
摘要 优云软件解决方案中心总监童华权为我们带来优云作为国内在运维领域做得比较深刻的厂商,在运维管理方面的一些见解。 运维面临的挑战 数据中心进入“两化转变” 数据中心转向“两化转变”,技术架构层面随着
IT大咖说
2018/04/04
4.4K0
优云新一代智能化运维管理解决方案
腾讯云的一场硬仗
来源 / ToB行业头条 (ID:wwwqifu) 作者 / 海阳
ToB行业头条
2022/11/17
5100
腾讯云的一场硬仗
腾讯全面上云之后的首次春保:这里的夜晚静悄悄
除夕夜,是全国人民阖家团圆的日子,也是鹅厂这帮技术人最紧张的时刻——一年一度的春节重保。 在这辞旧迎新的重要节点,全球十多亿用户通过微信和QQ拜年、发红包,在朋友圈、QQ空间分享心情,通过微信视频号、腾讯视频等观看春晚直播。 这些“新年俗”带来的是秒级内增长几十倍甚至数百倍的流量洪峰,就像传说中每年如约而至的“年兽”,稍有不慎,鹅厂系统就有被流量打崩的风险。 今年是腾讯自研业务全面上云之后的首个春保,相比往年,不仅顺利完成了护航任务,而且效率更高、质量更好、成本更低。 究其原因,这与腾讯自研业务全面上云、云
腾讯云原生
2023/02/13
5890
腾讯全面上云之后的首次春保:这里的夜晚静悄悄
重磅!腾讯云首次披露自研业务上云历程
导语:传统行业转型的过程中,腾讯向来扮演的是数字化助手的角色,腾讯云作为帮助企业数字化转型的入口,也已经成为腾讯的“独角兽”业务。 然而伴随着云业务的增长,腾讯内部业务如何上云,对于外界来说一直是个秘密。近日,腾讯自研上云项目负责人周小军首次披露,腾讯如何把内部海量的自研业务搬上云端的故事。以下是他的分享内容。 大家好,我今天分享的核心内容有三个: 腾讯自研业务如何从私有云的模式搬迁到公有云; 如何把这些大体量的业务搬到云端; 如何拥抱云原生。 腾讯的业务量非常庞大,社交业务包括QQ和空间的体量有
腾讯技术工程官方号
2019/08/15
15.6K0
重磅!腾讯云首次披露自研业务上云历程
服务质量分析:腾讯会议&腾讯云Elasticsearch玩出了怎样的新操作?
从1月29日起,为了应对疫情下远程办公的需求,腾讯会议每天都在进行资源扩容,日均扩容云主机接近1.5万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入。
腾讯云开发者
2020/07/23
2.2K0
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
织云平台团队
2017/12/17
5.4K0
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
腾讯会议空中加油级的扩容,只需按一个按钮
受疫情影响,多数企业员工目前无法回到写字楼办公,学生推迟开学,稳定高效的进行远程办公和直播授课成为2020年的开年刚需。2月,腾讯宣布疫情期间免费开放可支持300人在线会议的腾讯会议,央视新闻联播对此也给予了报道。 出生不久的腾讯会议瞬间成为了一款国民会议软件,海量用户呈几何级爆发涌入,1月29日开始到2月6日,腾讯会议每天都在进行资源扩容,日均扩容云主机接近1.5万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入,2月10日,腾讯会议后台服务器请求数增长了5倍。 那么腾讯会议是如何做到
腾讯云数据库 TencentDB
2020/02/14
2.3K0
腾讯会议空中加油级的扩容,只需按一个按钮
40天14大版本升级,腾讯会议背后大规模容器技术实践
腾讯会议作为面向企业级的关键产品,对产品的可用性和稳定性要求是非常高的,任何服务不稳定都可能会导致用户无法接入会议、会议中断或音视频质量差,从而导致用户投诉,影响到产品口碑,降低用户信任度。
Walton
2020/03/17
2K0
在每一个欢聚的日子里,感谢有你陪伴
"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。 2017 恭贺新禧,鸡年大吉 当你卸去一路的风尘回到阔别已久的老家,当你推开熟悉的大门见到了鬓发已经斑白的爸妈,当你围坐在桌前面对着一大桌热气腾腾的年夜饭,当你掏出手机收发着来自亲朋好友轮番的红包祝福……你可知道,在这样的欢聚日子里,有这样一群人,他们坚守在网络运营
鹅厂网事
2018/01/30
8920
在每一个欢聚的日子里,感谢有你陪伴
腾讯会议后台研发效能提升之路
---- 本文摘录于 《软件研发效能权威指南》 作者:周桂明 腾讯会议高级架构,腾讯云与智慧产业事业群 DevOps 与研发效能架构师 从字面上看,研发效能追求的是“效率”,但是脱离目标谈效率是没有意义的。从研发的角度看,软件的意义就是为用户和客户交付他们的所需,从而产生价值。因此,研发效能就是更快地为软件的用户或客户交付价值。这里的价值包括几个方面: 有效性:让业务交付的服务和客户的需求及市场更加匹配,即对不对的问题。 质量:提升业务的安全性和可靠性、用户体验等,即好不好的问题。 效率:提升研发运维和
腾讯云 CODING
2022/11/18
3.2K0
腾讯会议后台研发效能提升之路
腾讯完成全面上云 打造国内最大云原生实践
6月,腾讯对外宣布,经过多年磨砺与创新,内部海量自研业务已实现全面上云! 据统计,近三年来,腾讯的自研业务上云规模已经突破5000万核,累计节省成本超过30亿。 这意味着包括QQ、微信、腾讯视频、王者荣耀等在内的腾讯内部业务,和腾讯云百万级外部客户一样基于公有云的模式来开发运营,腾讯全面开启业务云端生长新时代。 “这是腾讯自研上云战略的一个里程碑。”腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示:“把腾讯内部海量业务搬上云端,不仅帮助腾讯构建面向未来的技术架构和研发文化,推动科技成为公司业务发展
腾讯云原生
2022/06/20
1.8K0
腾讯完成全面上云 打造国内最大云原生实践
腾讯会议大规模任务调度系统架构设计
疫情期间,很多企业受到了较大冲击,正常的复工生产无法进行。腾讯会议作为一款非常便捷的远程协作工具,成为了国内众多企业日常会议沟通交流的主要平台,这款产品从2019年12月26号正式推出,如何在这么短的时间内有效支撑起国内数以亿计用户的访问量呢?如何保障系统的稳定运行?
腾讯云开发者
2020/05/08
5.3K0
「腾讯会议」:面对业务指数级增长如何高效运维?
在我们深入使用CLS 的过程中,CLS的性能和数据加工的简便性给我们留下了深刻印象。原来需要自建Kafka和Flink才能完成的需求现在CLS两分钟就可以搞定了!
日志服务CLS小助手
2022/01/23
1.4K1
用户案例 | 腾讯小视频&转码平台云原生容器化之路
李汇波,腾讯业务运维高级工程师,目前就职于TEG 云架构平台部 技术运营与质量中心,现负责微信、QQ社交类业务的视频转码运维。 摘要 随着短视频兴起和快速发展,对于视频转码处理的需求也越来越多。低码率高清晰,4K、超清、高清、标清适配不同终端和不同网络环境来提升用户体验,以及水印、logo、裁剪、截图等多样化的用户需求。 对于资源的多样化需求和弹性扩缩容也需要快速响应,而随着公司自研上云项目的推进,设备的稳定性和多样性可提供更多选择,来满足像朋友圈、视频号、广告、公众号等转码业务快速、稳定、抗突发的资源需
腾讯云原生
2021/11/17
1.4K0
腾讯云小微AI语音助手云原生之路
云原生(CloudNative)是一个组合词,“云”表示应用程序运行于分布式云环境中,“原生”表示应用程序在设计之初就充分考虑到了云平台的弹性,就是为云设计的。可见,云原生并不是简单地使用云平台运行现有的应用程序,而是一种能充分利用云计算优势对应用程序进行设计、实现、部署、交付和操作的应用架构方法。
俞淦
2022/11/08
15.3K0
腾讯云小微AI语音助手云原生之路
推荐阅读
相关推荐
腾讯云TStack白皮书
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档