Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【云顾问-混沌演练】欢乐互娱:新游上线混沌演练实践

【云顾问-混沌演练】欢乐互娱:新游上线混沌演练实践

原创
作者头像
四方.
修改于 2024-03-13 09:01:01
修改于 2024-03-13 09:01:01
9730
举报
文章被收录于专栏:腾讯云顾问腾讯云顾问

一、 引言

欢乐互娱(上海)科技股份有限公司(以下简称“欢乐互娱”),是一家全球游戏研发和发行公司,聚焦于MMORPG和MMOACT两大品类,成功出品了众多知名游戏如《街机三国》、《龙之谷》和《英雄杀》等。2023年4月,欢乐互娱重磅新游大作《RO仙境传说》计划在东南亚发行,该项目开服规模大、影响用户范围广,做好游戏上线前的容灾准备以保障上线后的稳定性至关重要。

欢乐互娱使用腾讯云提供的IAASPAAS层的云架构和服务。为确保新游顺利上线,欢乐互娱与腾讯云混沌演练平台展开紧密合作,共同针对三大核心业务场景的可用性进行了大规模容灾演练,最终保障了新游的顺利发行上线。

二、 新游上线的稳定性挑战

随着云计算技术以及全球游戏市场的快速发展,游戏业务逻辑及分布式架构的复杂程度不断增长,游戏系统运行过程中如今面临着更复杂的故障场景考验,如服务器宕机、数据库故障、网络延迟等。这些故障可能会导致游戏中断、数据丢失或者性能下降,进而严重影响用户体验,造成巨大的经济损失。具体而言,游戏行业可用性通常面临以下可用性挑战:

挑战1:面临高并发压力

游戏行业的资源需求具有高度波动性,尤其是在新游戏开服、游戏活动、突发事件等场景下,大量在线玩家同时访问,用户量在短时间内激增,往往会给服务器、网络和数据库资源带来巨大的高并发压力。在这种情况下,系统需要具备良好的弹性伸缩能力,实时调整资源分配,满足游戏的可用性需求。

挑战2:网络稳定性要求高

由于游戏用户对实时交互体验的要求较高,延迟、丢包等网络问题将会严重影响游戏体验。在云上部署游戏时,如何保证网络稳定性,确保玩家在不同的硬件和网络条件下都能获得较低延迟的连接,是游戏行业面临的重要挑战。

挑战3:复杂的容灾场景

游戏行业对于高可用性和业务连续性的要求较高,云服务需要拥有强大的容灾能力,确保在发生故障时能够迅速恢复。因此,游戏服务需要建立单点故障切换恢复机制、完善的业务监控告警体系和故障应急SOP等,确保游戏业务运行的稳定性。

为了给玩家提供稳定性高、体验优质的游戏产品,企业对云服务稳定性的建设需求也愈发迫切。为了应对上述可用性挑战,引入混沌工程实践就成为了一种有效且必要的手段。

三、 混沌故障演练过程

在新游上线的背景下,欢乐互娱携手腾讯云混沌演练平台,通过梳理游戏行业痛点问题,结合业务背景,重点提炼出了服务器、网络、数据库等场景下的故障容灾演练,以充分评估新游戏产品的稳定性表现,有助于提前发现潜在的故障风险,为新游上线保驾护航。

1. 制定演练计划

  1. 明确演练目标:在新加坡新游上线前,通过注入模拟的重大故障验证业务稳定性,保障用户的三个核心业务场景具备分钟级别告警感知能力、不超过15min的应急恢复能力。
  2. 设计演练场景:在明确演练目标后,腾讯云混沌专家团队及高可用服务团队针对游戏行业通用故障痛点和业务特性,为业务定制化设计三大故障模拟场景:接入层负载均衡容灾能力、逻辑层虚拟机容灾能力、数据层CDB容灾能力
  3. 人员安排及角色分工:本次演练计划需结合开发、运维、测试和等团队的力量,进行跨部门的协作,安排参与人员及角色分工,制定整体演练流程和相应的安全兜底措施,确保演练过程的顺利进行
  4. 演练实施和复盘总结

2. 实施故障演练注入

此次演练涉及腾讯云CLB、CVM、CDB、EIP等多个云产品。腾讯云混沌团队依托内部实践经验和对行业痛点的深刻洞察,提供针对性的故障场景方案与故障动作编排,实现低成本、高效率的混沌演练,此次欢乐互娱新游演练包含以下核心演练场景:

1. 逻辑层:模拟虚拟机CPU内存高负载、虚拟机IO HANG等场景,应对高并发访问带来的资源压力。

2. 数据层:模拟数据库主从切换、连接数满、内存丢包等场景,应对数据读写不稳定问题。

3. 接入层:模拟弹性公网EIP被封堵/被攻击场景,验证系统在短时间内的故障感知与恢复能力。

在腾讯云混沌演练平台(CFG)上,业务团队可以轻松完成实例选取、演练场景动作编排、可视化故障注入和演练报告等全流程演练。深度定制的故障场景与可视化操作降低了客户成本投入,也确保演练针对性和效果更优。

图1 混沌演练平台-选择游戏演练模板
图1 混沌演练平台-选择游戏演练模板
图2 混沌演练平台-故障场景编排
图2 混沌演练平台-故障场景编排

3. 演练效果观测

在演练过程中,演练实施人员通过观察提前配置的实时监控指标和告警策略,来观测故障注入后系统稳态指标的表现,以判断系统的可用性和可靠性是否符合预期。

本次演练过程中的效果观测手段主要有四种:演练日志、业务指标监控、运维告警消息和产品页面业务表现。从观测结果可以看出,故障动作成功注入对象,真实模拟出了实际运行中的故障场景,充分检验了系统的可用性情况和应急机制是否有效。

图3 运维告警
图3 运维告警
图4 执行过程演练日志
图4 执行过程演练日志
图5 故障后游戏掉线界面
图5 故障后游戏掉线界面

四、 演练成果与收益

欢乐互娱在与腾讯云混沌演练平台的联合演练中,成功应对了一系列关键业务的容灾挑战,并对系统的整体可用性和可靠性进行了全面验证,达到演练目标"三个核心业务场景具备分钟级别内的告警感知能力、15min内的应急恢复能力"。

此次演练还发现并解决了一些重要问题,如监控告警能力和单点服务恢复能力等。优化后,故障感知效率得到显著提高,排障速度加快,故障恢复时长大幅缩短,从而显著提升了系统的稳定性和可靠性。通过这次实践,欢乐互娱业务运维团队更了解了关键服务的容灾能力和故障时系统切换流程,进一步增强了对自身产品稳定性和可用性的信心。最终,新游在东南亚区顺利上线,并在上线首日一举夺得五国畅销榜第一。

五、 腾讯云混沌演练平台

腾讯云混沌演练平台(Chaotic Fault Generator)是一款结合了腾讯内部实践的针对腾讯云上资源进行混沌工程实践的SaaS产品。平台整体遵循混沌工程理念,能够为游戏行业提供全面的故障模拟与演练服务,帮助企业发现并解决稳定性相关问题,及时优化系统,实现业务高可用性和高韧性,提升游戏公司产品的高可用能力,从而打造用户口碑,提升产品竞争力。

图6 混沌平台产品特性
图6 混沌平台产品特性

● 演练前,平台提供演练计划功能,帮助用户快速组织GameDay活动,对IaaS至PaaS产品100余种故障动作进行灵活编排组合;

● 演练中,平台支持用户进行可视化故障注入和自动恢复、稳态指标全方位监控,减少了人为干预的风险;

● 演练后,平台支持用户一键导出演练报告,回溯问题。

此外,平台从腾讯云内外部实践中提炼总结了包括游戏行业在内的7类行业经验库模板,支持用户可以快速复用行业经验模板来创建演练任务,提高演练效率。

图7 混沌平台演练模板
图7 混沌平台演练模板
图8 游戏场景下演练模板
图8 游戏场景下演练模板

附:

公有云产品体验:

混沌演练平台-腾讯云产品控制台

故障演练操作指南:

腾讯云文档中心-混沌演练平台-故障动作库

案例介绍文档:

腾讯云文档中心-混沌体验营

高可用服务:

高可用服务 - 腾讯云客户支持

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【云顾问-混沌演练】阅文游戏:新游上线混沌演练实践
阅文集团是一家以数字阅读为基础,IP培育与开发为核心的综合性文化产业集团。集团汇聚了强大的创作者阵营、丰富的作品储备,覆盖200多种内容品类,触达数亿用户,已成功输出《斗罗大陆》《斗破苍穹》《鬼吹灯》《盗墓笔记》《琅琊榜》《庆余年》等网文IP改编的动漫、影视、游戏等多业态产品。
怡然自得
2024/05/29
4940
【云顾问-混沌演练】阅文游戏:新游上线混沌演练实践
【云顾问-混沌演练】迎难而上,腾讯云混沌工程实践之道揭秘
随着数字经济转型逐步深化,众多企业正迈入全面上云阶段。然而,云计算架构所带来的复杂性也让稳定性面临极大挑战。伴随着云计算规模的快速增长,云服务作为社会基础设施的重要性也日益提升。腾讯云深知质量乃生命线,稳定性至关重要且不容忽视。
四方.
2023/07/03
1.5K0
【云顾问-混沌演练】迎难而上,腾讯云混沌工程实践之道揭秘
【云顾问-混沌演练】乐元素 x 腾讯云混沌演练平台:游戏业务同城双活改造最佳实践
乐元素是国内休闲益智游戏领域领航企业。为了给用户提供更稳定可靠的使用体验,在2023年Q2开始,乐元素运维、业务团队联合腾讯云售后专家和技术专家,基于针对乐元素旗下休闲游戏产品《开心消消乐》展开同城双活改造项目,目的是了解并改善业务容灾部署状况,进一步强化云上业务系统的容灾能力。
ainsley@tencentcloud
2024/01/29
6790
【云顾问-混沌演练】容灾演练Game Day最佳实践——moomoo
富途控股有限公司(“富途”)是一家领先的数字化金融科技公司,专注于为用户提供覆盖多个市场的全数字化金融服务,继而提升投资体验。2019年3月8日,富途(Nasdaq: FUTU)正式登陆美国纳斯达克交易所。富途通过自主研发的一站式数字化金融服务平台富途牛牛和moomoo,为用户提供市场数据、财经资讯、投资社区、投资知识等服务;并通过集团旗下持牌券商,向客户提供港股、美股、A股通、新加坡股及澳股的股票交易和清算,融资融券,及财富管理等服务。富途以用户为中心构建起连接用户、投资者、分析师、媒体、企业和机构的投资生态系统。通过旗下富途安逸(FUTU I&E)品牌,集团为企业客户提供一站式ESOP解决方案、首次公开募股(IPO)分销、投资者关系和公共关系(IR&PR)等企业及机构服务,已成为多家知名企业信赖的合作伙伴。
四方.
2023/08/22
1.4K1
【云顾问-混沌演练】容灾演练Game Day最佳实践——moomoo
【云顾问-混沌】[行业经验] 跨 AZ 容灾混沌演练
随着云计算技术的快速发展,越来越多的企业和组织将其业务迁移到云平台,以实现更高效、灵活和可扩展的资源管理。然而,由于云环境的复杂性高,也为业务稳定性带来了一定的挑战,那如何确保业务的高可用性和数据的安全性呢?进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。
冷淡然
2024/02/21
4880
【云顾问-混沌】[行业经验] 跨 AZ 容灾混沌演练
[云顾问-混沌][行业经验]混合云容灾混沌演练
混合云,顾名思义,是由公有云、私有云或其他云共同构成的宏观意义上云计算环境。公有云由各大云提供商提供,而私有云则是企业内部自行搭建并管理的云计算基础设施。混合云兼具公有云和私有云的优点,具备较高的收益和性能。但是基于混合云部署的业务系统往往复杂性高,维护成本大,因此也为业务稳定性带来了不小的挑战,为保证业务的稳定性,进行有规律的容灾演练是一种科学的方式。但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。
冷淡然
2024/04/17
2790
[云顾问-混沌][行业经验]混合云容灾混沌演练
【云顾问-混沌演练】精细演练,稳定云端——腾讯云助阵金蝶云,守护小微业务稳定高可用
为了给客户提供更优质、更可靠的服务,金蝶业务团队从2022年开始,就已经在腾讯云售后专家的协助下,陆续对业务系统完成双活改造。改造完成后,业务团队通过腾讯云混沌演练平台进行故障注入,以检验业务系统的容灾效果,从而提升业务系统韧性。本次演练主要针对金蝶小微业务线(精斗云&KIS云),涉及10大业务故障场景,是财务、新零售、电商等领域行业提高系统可用性的一次最佳实践。
Isainsley
2024/02/02
3920
【云顾问-混沌演练】精细演练,稳定云端——腾讯云助阵金蝶云,守护小微业务稳定高可用
【云顾问-混沌演练】“练”出强大,腾讯云混沌演练平台斩获三项优秀案例荣誉!
中国信通院于2022年11月启动案例征集,活动旨在通过筛选行业最佳实践案例,为众多企业提供参考和指引,进而推动我国云服务稳定安全运行水平提升,保障各个行业数字化转型和稳定运营。作为首届活动,标志性、引领性意义重大。
Isainsley
2023/02/07
1K0
【云顾问-混沌演练】“练”出强大,腾讯云混沌演练平台斩获三项优秀案例荣誉!
Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践
腾讯互娱运营活动每天的访问人次超过 100 亿次,高峰的 QPS 超过 100 万,每天活动代码发布更新超过 500 次,数据量也超过 200 TB。面对海量的用户请求和快捷的版本发布迭代速度,如何才能又快又稳地保障服务的运营?腾讯互娱活动运营团队给出的解决方案是 DevOps 和云原生。
CNCF
2021/05/27
1K0
Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践
Chaos Mesh® 在腾讯——腾讯互娱混沌工程实践
本篇文章整理自腾讯互娱高级工程师吴召军在 PingCAP Infra Meetup 上的演讲实录,欢迎点击【阅读原文】查看视频回放,后台回复 “135” 即可获取本期 PPT 链接。
PingCAP
2021/05/19
1.5K0
【腾讯云顾问产品白皮书】重磅发布
随着云计算技术的快速发展,企业上云已成为推动业务创新和发展的重要手段。在这个过程中,构建一个高效、稳定、安全的云上架构成为企业面临的关键挑战。腾讯云卓越架构框架(Tencent Cloud Well-Architected Framework)旨在为企业提供一套全面的设计理念,帮助客户解决业务上云后的关键问题。
Smart Advisor
2024/08/20
5841
【腾讯云顾问产品白皮书】重磅发布
【云顾问-混沌】服务宕机灾难预防手段:混沌工程
Salesforce 是领先的云软件应用程序,全球约15万组织数百万员工使用。提供客户关系管理全套服务,包括联系人管理、产品目录、订单管理、机会管理和销售管理等。无需额外投入维护、储存和管理记录,所有数据存储在上面。
冷淡然
2023/12/19
3390
【云顾问-混沌】腾讯云的云上容灾实践
在2023年11月12日,刚经过双11的购物节大压力的阿里,却从17:44起发生了服务宕机,旗下的淘宝、闲鱼、饿了么等服务出现服务中断,甚至让高校学生宿舍的洗衣机都“宕机”了。从阿里云健康看板公布的数据可以看出,阿里云的几乎所有的云产品等服务都受到了影响,影响了全球范围内多个地域。阿里云这次故障,放在整个云厂商界都是炸裂般的存在。阿里云历时3个多小时,服务才陆续恢复。
冷淡然
2023/11/16
1.4K1
【云顾问-混沌】腾讯云的云上容灾实践
首批!腾讯专有云TCE和TCS通过信通院容灾认证
近日,腾讯专有云TCE和TCS 首批通过了中国信息通信研究院(以下简称信通院)《专有云容灾技术能力要求》,从基础设施能力、架构容灾能力、平台容灾能力三大类13子项88细项100%满足监管机构对专有云容灾的技术能力要求。TCE和TCS的容灾能力达到业界领先水平。
腾讯专有云
2024/05/22
1.1K0
首批!腾讯专有云TCE和TCS通过信通院容灾认证
【云顾问-混沌】混沌工程理念:起源
在互联网及互联网+发展的高速期,简单的单体系统已经无法满足互联网用户的需求,逐渐从单体系统向分布式微服务架构系统演进。演进历程可以概括为以下几个阶段:
冷淡然
2023/10/23
5380
【云顾问-混沌】混沌工程理念:起源
专有云稳定性又双叒叕得奖了!
2023年12月27日,由中国信息通信研究院、中国通信标准化协会主办的2023系统稳定性与精益软件工程大会在北京举行。腾讯专有云《基于AZ内故障演练的专有云服务风险隐患排查》荣获第二届云系统稳定安全运行优秀案例-混沌工程实践优秀案例,《专有云机房断电恢复应急处置实践案例》荣获云系统运行故障应急处理实践优秀案例。
腾讯专有云
2023/12/28
3080
专有云稳定性又双叒叕得奖了!
腾讯云推出云原生etcd服务
背景 腾讯云容器服务TKE从2016年提供服务至今,已服务成千上万企业构建其容器化平台, 一方面,腾讯云容器团队在提供容器服务时积累并完善了一套万级K8s集群的etcd管理平台,用于支撑腾讯云容器产品稳定运行,该平台同时也支撑了腾讯内部业务如云监控,api网关,欢乐游戏等,另一方面,我们积极参与etcd社区,将我们大规模实践过程中遇到的问题和解决方案,反馈和贡献给社区,是社区2020年最活跃的贡献团队之一。 容器团队在多次客户访谈中了解到,很多客户不想自己运维etcd,期望能够使用腾讯云容器服务内部et
腾讯云原生
2020/09/17
10.9K0
干货 | 通过不断地失败来避免失败,携程混沌工程实践
Ctrip SRE,负责携程网站系统可靠性保障,探索和落地高可用体系的运维架构,如多活容灾、全链路压测、混沌工程、AIOPS等。
携程技术
2020/06/09
1.1K0
银行核心背后的落地工程体系丨混沌测试的场景设计与实战演练
与集中式架构相比,分布式架构的系统复杂性呈指数级增长,混沌工程在信创转型、分布式架构转型、小机下移等过程中有效保障了生产的稳定性。本文分享了 TiDB 分布式数据库在银行核心业务系统落地中进行混沌测试的场景设计和实践。
PingCAP
2024/05/15
2900
给系统打针高可用疫苗,鹅的数据库就是稳!
如今是数据驱动时代,数据库作为企业的核心资产之一,其安全性和稳定性显得尤为重要。然而,面对复杂多变的业务场景和不断演变的技术挑战,如何把握现有数据库架构可承受故障的故障级别、发生故障后的高可用性方案是否有效,成为了许多数据库用户关注的焦点,也是腾讯云MySQL在服务众多重保用户时思考的问题。
腾讯云数据库 TencentDB
2023/10/20
4370
给系统打针高可用疫苗,鹅的数据库就是稳!
推荐阅读
相关推荐
【云顾问-混沌演练】阅文游戏:新游上线混沌演练实践
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档