腾讯网关团队与清华大学联合撰写的学术论文《TGW: Operating an Efficient and Resilient Cloud Gateway at Scale》(《腾讯网关TGW:一种面向大规模场景的高效弹性云网关架构》)成功入选2025年度USENIX年度技术会议(即USENIX ATC '25)。该论文系统阐述了已在腾讯生产环境稳定运行并持续迭代数代的TGW网关架构,重点展示了其用户无感知的无损快速迁移能力、故障自愈能力及高精度故障定位系统。此项研究成果标志着腾讯公司与清华大学、中国人民大学联合共建的云网络技术实验室在云网关领域取得的又一重大突破。以下将针对论文核心技术创新点进行深度解析。
关注腾讯云开发者,一手技术干货提前解锁👇
背景及目标
大规模云数据中心已成为互联网基础设施的核心支柱。作为业务的公网接入入口,TGW(Tencent Gateway)集成了弹性公网接入、智能负载均衡等关键能力,以应对业务流量的快速增长与复杂需求。
当前大型云数据中心已成为支撑数字生态的核心枢纽。腾讯TGW云网关系统(Tencent Gateway)作为全网流量调度中枢,通过弹性公网接入与智能均衡负载等核心能力,有效应对业务规模指数级增长带来的技术挑战。在云计算服务差异化竞争格局下,不同厂商的"杀手级业务"对网络提出了差异化要求,相较于搜索、电商或短视频业务,腾讯的业务(如在线游戏、实时音视频流媒体)对网络时延、传输稳定性具有更高标准。为此我们构建并成功运营了模块化、可高度解耦的TGW云网关系统,其核心能力包括:
互联网业务的“永不掉线”的需求与现网运营中不可避免的设备及网络故障、变更、网络攻击是有相当的矛盾的,因此对网关系统的可用性保障能力也是很大挑战。因此团队进行设计、部署及持续迭代,已实现以下核心目标:
TGW云网关系统已在腾讯云全球基础设施中稳定运行8年,服务游戏、直播、金融等海量业务场景,积累了相当丰富的大规模工业级实践经验。本次入选USENIX ATC '25的论文,系统阐述了TGW的架构设计、关键技术(如可扩展状态迁移、故障恢复机制)及运营经验,将为行业提供重要参考。
TGW架构及工作流程
TGW采用层次化模块设计,将网关系统分为以下3个部分:
在部署模式,针对不同的云网络功能,TGW的集群部署在云网络的不同位置中:
工作流程(以入向流量为例):
关键技术解析
TGW 的核心技术围绕 高效转发、状态迁移、故障恢复 和 故障检测 四个方面展开,针对大规模云网关场景进行了深度优化。
1. 高效转发平面
TGW 针对不同产品功能(TGW-EIP 和 TGW-CLB)选用两种不同的转发模型,并进行针对性的性能优化,以最大化 DPDK 的性能潜力。
(1) TGW-EIP
提供无状态弹性公网接入能力(NAT、隧道封装),采用Run-to-Completion (RTC) 模型。
核心优化:
(2) TGW-CLB
作为有状态的负载均衡(需维护连接状态)产品,采用Pipeline+RTC混合模型。
核心优化:
2. 状态迁移机制
TGW 支持 无损热迁移,确保服务连续性,尤其适合在线游戏和实时流媒体等敏感业务。
(1) 热迁移 vs. 冷迁移
类型 | 特点 | 适用场景 |
---|---|---|
热迁移 | 迁移连接状态,无感知切换 | 常规扩容/缩容、AZ 故障转移 |
冷迁移 | 强制重建连接,引入延迟 | 灾难恢复(如集群完全崩溃) |
(2) 热迁移流程
(3) 状态聚合优化
3. 故障恢复机制
TGW 采用 多级容错模型 和 分散迁移,实现秒级故障恢复。
(1) 集群内链接同步,支持设备升级或故障长连接无损
(2) 多级容错模型
级别 | 模型 | 实现方式 |
---|---|---|
AZ 内 | Active-Active | 转发节点共享链接表,故障时 BGP 停止路由宣告触发 ECMP 重哈希(一致性哈希保亲和性)。 |
AZ 间 | Active-Standby | 冗余 AZ 配对,通过高优的 IP 前缀路由宣告(如 VIP1/26 与 VIP1/25)实现无缝切换。 |
跨区域 | DNS 重定向 | 区域级灾难时,快速切换 DNS 记录(牺牲状态一致性保生存性)。 |
(3) 分散迁移
4. 故障检测与定位
TGW 通过染色标记拨测系统,实现 1 分钟内故障定位。
运营经验
TGW已在腾讯云全球基础设施中稳定运行8年,服务游戏、直播、金融等海量业务场景,积累了丰富的运维最佳实践。这里从 故障域隔离、冗余策略、集群管理、协议优化 和 安全防御 五个维度展开分享了关键运营经验。
1. 故障域隔离(Blast Radius Isolation)
核心思想:通过分层设计和流量分区,限制单点故障的影响范围。
(1) 分层架构设计
(2) 流量分区
2. 冗余策略(Redundancy)
目标:以合理成本实现高可用,避免过度冗余。
(1) 50% 冗余原则
层级 | 冗余设计 | 容错能力 |
---|---|---|
AZ 级 | 两个 AZ 组成冗余对,任一 AZ 故障时,另一 AZ 可承载全部流量。 | 容忍单 AZ 完全失效。 |
机架级 | 单集群节点分布在至少 2 个机架,半数机架故障不影响服务。 | 容忍单机架断电/网络中断。 |
机器级 | 集群容量按 50% 负载设计,半数节点故障时仍可运行。 | 容忍批量硬件故障。 |
链路级 | 每台服务器双网卡绑定,核心交换机双上联。 | 容忍单网卡/光纤故障。 |
(2) 热备与冷备结合
3. 集群管理(Cluster Management)
核心挑战:平衡性能、稳定性与运维效率。
(1) 上线流程
(2) 动态扩缩容
(3) 配置管理
4. 协议优化(Protocol Optimization)
(1) 从组播到单播的演进
(2) 奇偶路由(Odd-Even Routing)
5. 安全防御(Security)
(1) DDoS 防护架构
(2) 异常流量处理
总结与展望
论文详细展示了腾讯TGW云网关系统的核心技术及运营经验,相信可以为网关系统的开发和运营提供普适性的参考和借鉴意义。未来,TGW将持续融合硬件卸载、可编程转发等前沿技术,推动云网关向更高性能、更强可靠性演进,助力业界构建下一代智能网络基础设施。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有