案例背景
欢乐互娱(上海)科技股份有限公司(以下简称“欢乐互娱”),是一家全球游戏研发和发行公司,聚焦于 MMORPG 和 MMOACT 两大品类,成功出品了众多知名游戏如《街机三国》、《龙之谷》和《英雄杀》等。2023年4月,欢乐互娱重磅新游大作《RO 仙境传说》计划在东南亚发行,全量使用腾讯云 IaaS 和PaaS 层的云架构和服务,该项目开服规模大、影响用户范围广。为确保新游顺利上线,欢乐互娱与云顾问-混沌演练联合开展针对三大核心业务场景的稳定性演练。
业务挑战
1. 面临高并发压力
游戏业务需应对大量在线玩家的同时访问,特别是在新游开发、活动和突发事件等场景下,往往会给服务器、网络和数据库资源带来巨大的高并发压力。系统须具备弹性伸缩能力,实时调整资源分配,确保游戏可用性。
2. 网络稳定性要求高
游戏高度依赖实时交互体验,要求网络具备低延迟和高可靠性。游戏服务需在不同的硬件和网络条件下维持稳定连接。
3. 复杂的容灾场景
游戏行业对高可用性和业务连续性要求严格。云服务需具备强大的容灾能力,应对故障,快速恢复,保障游戏业务的稳定运行。
解决方案
1. 定制化游戏场景解决方案
云顾问-混沌专家团队与高可用服务团队共同为游戏业务制定三大故障模拟场景,包括接入层负载均衡容灾能力、逻辑层云服务器容灾能力、以及数据层云数据库容灾能力。凭借丰富的内部实践经验和深刻的行业洞察,云顾问-混沌演练提供针对性的故障场景方案与故障动作编排,实现低成本、高效率的混沌演练。
2. 故障恢复机制和监控指标体系
云顾问-混沌演练融合了各类基础云产品的监控指标体系。在故障发生时,用户可以依托故障恢复机制,尽快切换至备用资源,确保游戏服务正常运行。同时,实施人员能够借助日志、业务指标监控、运维告警消息和产品页面业务表现等手段,全面观测故障注入后系统的实际表现,确保系统可用性和可靠性符合预期。
3. 丰富的云上故障场景和自动化执行能力
平台支持腾讯云主机、容器、数据库、专线等20余种对象资源故障注入,提供近100种故障场景。能够对游戏业务需求进行更真实的故障场景模拟,以检验系统稳定性。平台上的故障动作编排操作便捷,降低沟通与运维成本,显著提高整体混沌演练效率。
客户收益
1. 容灾能力提升:全面验证系统可用性和可靠性,提高故障感知、排障和恢复的速度,降低风险,确保系统稳定性和可靠性得到显著提升。
2. 系统深度洞察:业务运维团队在实践中更深入了解关键服务的容灾能力和故障时系统切换流程,以针对性地解决问题,增强对产品稳定性和可用性的信心。
3. 新游稳定上线:在新游上线演练中,欢乐互娱成功应对了一系列关键业务的容灾挑战。保障新游在东南亚区顺利上线,并在上线首日一举夺得五国畅销榜第一。