首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >不止是上云,更是上岸

不止是上云,更是上岸

作者头像
腾讯云原生
发布于 2021-12-01 03:10:07
发布于 2021-12-01 03:10:07
1.2K0
举报

常耀国,腾讯SRE专家,现就职于PCG-大数据平台部,负责千万级QPS业务的上云、监控和自动化工作。

背景

BeaconLogServer 是灯塔 SDK 上报数据的入口,接收众多业务的数据上报,包括微视、 QQ 、腾讯视频、 QQ 浏览器、应用宝等多个业务,呈现并发大、请求大、流量突增等问题,目前 BeaconLogServer 的 QPS 达到千万级别以上,为了应对这些问题,平时需要耗费大量的人力去维护服务的容量水位,如何利用上云实现 0 人力运维是本文着重分析的

混合云弹性伸缩

弹性伸缩整体效果

首先谈一下自动扩缩容,下图是 BeaconLogServer 混合云弹性伸缩设计的方案图

弹性伸缩方案

资源管理

先从资源管理讲起,目前 BeaconLogServer 节点个数是8000多个,需要的资源很大,单独依靠平台的公共资源,在一些节假日流量突增的时候,可能无法实现快速的扩容,因此,经过调研123平台(PAAS 平台)和算力平台(资源平台),我们采用了混合云的方式,来解决这个问题。分析 BLS 业务场景,流量突增存在下面两种情况

  • 日常业务负载小幅度升高,时间持续较短
  • 春节业务负载大幅度升高,并持续一段时间 针对上述的业务场景,我们采用三种资源类型来应对不同场景,具体如下表所述:

类型

场景

set

公共资源池

日常业务

bls.sh.1

算力平台

小高峰

bls.sh.2

专用资源池

春节

bls.sh.3

日常业务我们使用公共资源池+算力资源,当业务的负载小幅度上升的话,使用算力资源快速扩容,保障服务的容量水位不超过安全阈值。面对春节负载大幅度升高,这时需要构建专有资源池来应对春节的流量升高。

弹性扩缩容

上文阐述了资源的管理,那么针对不同的资源,何时开始扩容,何时开始缩容?

BeaconLogServer 日常的流量分布是 123 平台公共资源:算力平台=7:3。目前设置的自动扩容的阈值是60%,当 CPU 使用率大于60%,平台自动扩容。弹性扩缩容依赖的是 123 平台的调度功能,具体的指标设置如下:

类型

CPU自动缩容阈值

CPU自动扩容阈值

最小副本数

最大副本数

123平台公共资源池

20

60

300

1000

算力平台

40

50

300

1000

123平台专有资源池

20

60

300

1000

可以看到算力平台自动缩容阈值较大,自动扩容阈值较小,主要考虑算力平台是应对流量突增的情况,而且算力平台资源经常替换,因此优先考虑先扩容或缩容算力平台的资源。最小副本数是保障业务所需的最低资源需求,如果少于这个值,平台会自动补充。最大副本数设置1000,是因为 IAS 平台(网关平台)一个城市支持的最大 RS 节点数是1000。

问题及解决

方案推进的过程中,我们也遇到了很多问题,挑选几个问题和大家分享一下。

1)首先从接入层来讲,之前接入层业务使用的是 TGW , TGW 有一个限制,就是RS的节点不能超过200个,目前 BeaconLogServer 的节点是8000多个,继续使用 TGW 需要申请很多个域名,迁移耗时多且不便于维护。我们调研接入层 IAS , IAS 四层每个城市支持的节点个数是1000个,基本可以满足我们的需求,基于此,我们设计如下的解决方案如下:

总体上采用“业务+地域”模式分离流量。当集群中一个城市的 RS 节点超过500个就需要考虑拆分业务,例如公共集群的节点超出阈值,可以把当前业务量大的视频业务拆分出来,作为一个单独的集群;如果是一个独立集群的业务节点超出阈值,先考虑增加城市,把流量拆分到新的城市。如果无法新增城市,此时考虑新增一个 IAS 集群,然后在 GLSB 上按照区域把流量分配到不同的集群。

2)同一个城市不同的资源池设置不同的 set,那么IAS如何接入同一个城市不同 set 呢?北极星本来有[通配组功能],但是 IAS 不支持 set 通配符功能实际上,我们推动 IAS 实现了通配组匹配,例如使用 bls.sh.% 可以匹配 bls.sh.1 , bls.sh.2 , bls.sh.3 。注意, IAS 通配符和北极星的不一样,北极星使用的是***, IAS 在上线的时候发现有用户使用*做单独匹配,所以使用%来表示通配符。

3)资源管理这块遇到的难点是 IAS 四层无法使用算力资源的节点,后面在经过沟通,打通了 IAS 到算力资源的。这里的解决方案是使用 SNAT 能力

此方案的注意事项

  • 只能绑定 IP 地址,无法拉取实例,实例销毁也不会自动解绑,需要通过控制台或 API 主动解绑(已跨账号,拉取不到实例)
  • 如果是大规模上量:过哪些网关、哪些容量需要评估、风险控制,需要评估

单机故障自动化处理

单机故障处理效果

单机故障自动化处理,目标是实现0人力维护,如下图是我们自动化处理的截图

单机故障处理方案

单机故障主要从系统层面和业务层面两个维度考虑,详情如下:

维度

告警项

系统层面

CPU

系统层面

内存

系统层面

网络

系统层面

磁盘

业务层面

ATTA Agent不可用

业务层面

队列过长

业务层面

发送atta数据成功率

针对单机故障,我们采用的是开源的 Prometheus +公司的 Polaris(注册中心) 的方式解决。Prometheus 主要是用来采集数据和发送告警,然后通过代码把节点从 Polaris 摘除。

至于告警发生和告警恢复的处理,当告警发生的时候,首先会判断告警的节点个数,如果低于三个以下,我们直接在 Polaris 摘除节点,如果大于3个,可能是普遍的问题,这时候我们会发送告警,需要人工的介入。当告警恢复的时候,我们直接在平台重启节点,节点会重新注册 Polaris 。

ATTA Agent 异常处理

如图所示,处理流程是两条线,告警触发和告警恢复,当业务异常的时候,首先判断当前异常节点的数量,保证不会大范围的摘掉节点。然后在北极星摘除节点。当业务恢复的时候,直接重启节点。

问题及解决

主要的难点是 Prometheus Agent 的健康检查和 BeaconLogServer 节点的动态变化,对于第一个问题,目前主要是由平台方负责维护。对于第二个问题,我们利用了定时脚本从 Polaris 拉取节点和 Prometheus 热加载的能力实现的。

总结

此次上云有效的解决了自动扩缩容和单机故障这两块的问题,减少了手动操作,降低了人为操作错误风险,提升系统的稳定性。通过此次上云,也总结了几点:

  • 迁移方案:上云之前做好迁移方案的调研,特别是依赖系统的支持的功能,降低迁移过程因系统不支持的系统性风险 。
  • 迁移过程:做好指标监控,迁移流量之后,及时观测指标,出现问题及时回滚。

互动赢好礼

精读文章,回答问题赢好礼

Q1:0人力运维是否是伪命题?

Q2:目前大环境都在上云,那么在上云的过程中,各位遇到的问题和解决的方式可以分享一下。

12月1日上午11点由作者选出回答最佳的5位读者,送腾讯定制“猿”T恤一件。

  往期精选推荐  

点个“在看”每天学习最新技术

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云原生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超时错误码减少99.85%,QQ聊天图片自研上云的技术详解
自研业务存储平台-是 QQ 的富媒体(图片、视频、语音、文件等)数据传输、存储、处理等全链路解决方案的平台。致力于为用户提供稳定快速的群聊 、单聊图片上传和下载服务。为了面对突发热点也能快速响应,作者团队决定对其进行上云处理。本文着重以 QQ 聊天图片(简称:QQ 图片)为例讲述整个上云的过程及调优。
腾讯云开发者
2023/08/18
5040
超时错误码减少99.85%,QQ聊天图片自研上云的技术详解
用户案例 | 腾讯小视频&转码平台云原生容器化之路
李汇波,腾讯业务运维高级工程师,目前就职于TEG 云架构平台部 技术运营与质量中心,现负责微信、QQ社交类业务的视频转码运维。 摘要 随着短视频兴起和快速发展,对于视频转码处理的需求也越来越多。低码率高清晰,4K、超清、高清、标清适配不同终端和不同网络环境来提升用户体验,以及水印、logo、裁剪、截图等多样化的用户需求。 对于资源的多样化需求和弹性扩缩容也需要快速响应,而随着公司自研上云项目的推进,设备的稳定性和多样性可提供更多选择,来满足像朋友圈、视频号、广告、公众号等转码业务快速、稳定、抗突发的资源需
腾讯云原生
2021/11/17
1.4K0
降本超30%,智聆口语通过 TKE 注册节点实现 IDC GPU 节点降本增效实践
杨豪,腾讯云研发工程师,腾讯云智聆口语评测研发骨干。目前负责腾讯云智聆口语评测整体架构优化与系统迭代,专注于降本增效与服务可靠性提升。 邓琨,腾讯云高级研发工程师,专注于微服务云原生架构探索。负责智聆口语评测自动化运维上云建设,助力业务降本增效。 背景介绍 腾讯云智聆口语评测(Smart Oral Evaluation,SOE)是腾讯云推出的中英文语音评测产品,支持从儿童到成人全年龄覆盖的语音评测,提供单词、句子、段落、自由说等多种评测模式,从发音精准度、流利度、完整度等全方位打分机制,与专家打分相似度达
腾讯云原生
2023/01/09
3.3K0
降本超30%,智聆口语通过 TKE 注册节点实现 IDC GPU 节点降本增效实践
高并发场景下如何保证系统稳定性
导语 微服务产品团队为了广大开发者朋友们可以更好的使用腾讯云微服务产品,将持续为大家提供微服务上云快速入门的指引性文档,内容通俗易懂易上手,本篇为本系列的第二篇,为开发者朋友们详解高并发场景下限流的解决方案,欢迎大家收看。 作者简介 刘远 腾讯云泛互联网首席解决方案架构师 本篇文章将从以下四个方面为大家详解高并发场景限流解决方案: 秒杀场景架构概述 限流实现原理及方案选型 限流配置实践 云书城沙盒环境演示 秒杀场景架构概述 场景特点 在电商行业里,商家经常会做商品促销的活动,来进行品牌推广或
腾讯云中间件团队
2022/11/22
1.5K0
高并发场景下如何保证系统稳定性
资源利用率提高67%,腾讯实时风控平台云原生容器化之路
随着部门在业务安全领域的不断拓展,围绕着验证码、金融广告等服务场景,腾讯水滴作为支撑业务安全对抗的实时风控系统,上线的任务实时性要求越来越高,需要支撑的业务请求量也随之增加。对于业务快速上线和资源快速扩缩容的需求,且公司自研上云项目往全面容器化上云方向推进,水滴风控平台开始进行自研上云的改造。本文主要针对腾讯水滴平台上云过程中的实践总结,希望对其他业务迁移上云有一定参考价值。
冬夜先生
2021/09/07
9710
猫眼在腾讯云北极星上的最佳实践
在当前互联网行业飞速发展的背景下,企业对高效、稳定、灵活的服务治理方案需求愈发迫切。猫眼作为领先的互联网票务企业,通过采用腾讯云 北极星(Polaris),成功优化了其微服务架构,实现了显著的性能提升和故障容错能力增强。通过将注册配置中心从 Nacos 迁移至北极星,猫眼解决了多项技术瓶颈问题,在同等规格下,承载的服务注册数更多,注册发现性能提高了30%,并显著提升了系统的扩展性和稳定性。
腾讯云中间件团队
2025/02/10
2390
猫眼在腾讯云北极星上的最佳实践
资源利用率提高67%,腾讯实时风控平台云原生容器化之路
陈建平,后台开发工程师,现就职于TEG安全平台部-业务安全中心,主要负责中心实时策略风控平台开发。 导语 随着部门在业务安全领域的不断拓展,围绕着验证码、金融广告等服务场景,腾讯水滴作为支撑业务安全对抗的实时风控系统,上线的任务实时性要求越来越高,需要支撑的业务请求量也随之增加。对于业务快速上线和资源快速扩缩容的需求,且公司自研上云项目往全面容器化上云方向推进,水滴风控平台开始进行自研上云的改造。本文主要针对腾讯水滴平台上云过程中的实践总结,希望对其他业务迁移上云有一定参考价值。 水滴后台架构 腾讯水滴
腾讯云原生
2021/08/23
1.4K0
QQ浏览器信息流云原生应用之路
宋廷豪,高级工程师,就职于PCG-腾讯看点。主要负责QQ浏览器信息流推荐架构的相关工作。 背景 QQ 浏览器信息流(QB)推荐架构支撑了 QQ 浏览器、快报主 feeds 场景、浮层等信息流卡片实时推荐的能力,架构上不仅仅要支持多业务、多产品,如 QB 、快报、外部合作等,而且需要能够快速支持各种类型场景的能力,如主 TL 、浮层,且能够快速扩展支持垂直频道和 APP 。那么信息流推荐架构需要做到灵活模块化,水平易扩展。 为了做到海量级实时精准推荐,信息流推荐架构划分为了四层:展控层、排序层(精排/粗排
腾讯云原生
2021/08/17
7920
日均服务调用超65万亿!腾讯是怎么做云原生微服务治理的?
云原生时代,越来越多的企业借助于微服务与容器化,来提升业务弹性与研发效率。在服务治理的道路上,我们也吸取各家之所长打磨了相关的产品。本次分享以腾讯微服务架构建设为主,介绍了 TCS/TSF、北极星(PolarisMesh)和微服务治理方面的实践经验,以及在企业的相关落地案例。
腾讯云开发者
2024/12/03
9890
日均服务调用超65万亿!腾讯是怎么做云原生微服务治理的?
腾讯云小微AI语音助手云原生之路
云原生(CloudNative)是一个组合词,“云”表示应用程序运行于分布式云环境中,“原生”表示应用程序在设计之初就充分考虑到了云平台的弹性,就是为云设计的。可见,云原生并不是简单地使用云平台运行现有的应用程序,而是一种能充分利用云计算优势对应用程序进行设计、实现、部署、交付和操作的应用架构方法。
俞淦
2022/11/08
15.5K0
腾讯云小微AI语音助手云原生之路
解决创新业务的三大架构难题,央广购物用对了这个关键策略
导语 央广购物借助云原生技术,解决了品小美这类创新业务普遍面临的资源预估难、运维成本高以及故障定位慢等难题。 背景介绍 央广购物系广电总局批准核发的,依托于中央广播电视总台的全国性电视购物公司。央广购物以电视直播和网络直播为基础,持续构建内容电商生态和服务能力。 央广购物响应新零售的业务趋势,推出了拼团直播带货的“品小美”子品牌,以微信小程序为依托,通过主播团长拼团的模式,推动电商业务的发展。“品小美”一方面能够为电视购物会员带来更丰富便捷的购买渠道与更多价格实惠的商品,另一方面也能帮助电视购物频道实现
腾讯云中间件团队
2023/03/24
5470
解决创新业务的三大架构难题,央广购物用对了这个关键策略
虚拟节点轻松应对 LOL S11 百万并发流量——腾竞体育的弹性容器实践
刘如梦,腾竞体育研发工程师,擅长高并发、微服务治理、DevOps,主要负责电竞服务平台架构设计和基础设施建设。 詹雪娇,腾讯云弹性容器服务EKS产品经理,主要负责 EKS 虚拟节点、容器实例相关的产品策划。 业务介绍 自 2019 年,腾竞整个电竞赛事数据服务完全由腾讯云 TKE 容器服务承载。腾竞赛事数据开放平台目前主要提供职业赛事数据的授权与查询,随着斗鱼、虎牙、企鹅、掌盟、微信直播、微博等平台的相继接入,平台整体流量有了爆发式的增长。 此前 2021英雄联盟全球总决赛(以下简称 S11) 期间更是创
腾讯云原生
2021/12/07
1.1K0
最佳案例 | 游戏知几 AI 助手的云原生容器化之路
张路,运营开发专家工程师,现负责游戏知几 AI 助手后台架构设计和优化工作。 游戏知几 随着业务不断的拓展,游戏知几 AI 智能问答机器人业务已经覆盖了自研游戏、二方、海外的多款游戏。游戏知几研发团队主动拥抱云原生,推动后台业务全量上云,服务累计核心1w+。 通过云上的容器化部署、自动扩缩容、健康检查、可观测性等手段,提高了知几项目的持续交付能力和稳定性,形成了一套适合游戏知几自身的上云实践方案。本文将会介绍游戏知几项目中遇到的痛点以及探索出的一套可靠的上云实践方案。 知几项目背景 游戏知几[1]是一款游戏
腾讯云原生
2022/05/18
1.6K1
最佳案例 | 游戏知几 AI 助手的云原生容器化之路
左手 VM,右手 Container Serverless,达达智能弹性伸缩架构和实践
面对节假日常规促销、618/ 双 11 购物节等配送业务订单量的暴增,达达集团通过智能弹性伸缩架构和精细化的容量管理,有效地做到了业务系统对配送全链路履约和服务体验的保驾护航。在 2021 年 4 月 25 日 ArchSummit 全球架构师峰会(上海站)上,达达集团云平台 DevOps & SRE 负责人杨森,发表了以《左手 VM ,右手 Container Serverless ,云原生智能弹性伸缩架构和实践》主题分享,希望对正在进行弹性扩缩容的你有所启发。本文为其演讲整理,enjoy~
深度学习与Python
2021/06/08
1.2K0
左手 VM,右手 Container Serverless,达达智能弹性伸缩架构和实践
国内最大规模上云实践 | 鹅厂如何在云原生2.0时代“挖呀挖”?
2022 年 10 月,腾讯自研业务产品全面完成云原生上云。自研业务产品云上规模已突破 5000w CPU,借助云原生的技术优势,全面提升了腾讯自研业务产品的运营效率,在此过程中我们也对腾讯云产品进行了打磨和验证。无论是在业务场景、稳定性要求、运维效率等多个方面,大规模容器化过程中都面临不少的技术挑战。本篇将进行分享,希望可以给广大开发爱好者带来灵感。
腾讯云开发者
2023/05/12
9810
kubernetes 降本增效标准指南|理解弹性,应用弹性
王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务。 弹性伸缩在云计算领域的简述 弹性伸缩又称自动伸缩,是云计算场景下一种常见的方法,弹性伸缩可以根据服务器上的负载,按一定的规则进行弹性的扩缩容服务器。 弹性伸缩在不同场景下的含义: 对于服务运行在自建机房的公司,弹性伸缩通常意味着允许一些服务器在低负载时进入睡眠状态,从而节省电费(以及用于冷却机器的水费和电费)。 对于使用在托管于云上的机房的公司而言,自动扩展可能意味着更低的费用,因为大多数云提供
腾讯云原生
2021/05/28
3.3K0
宙斯盾 DDoS 防护系统“降本增效”的云原生实践
tomdu,腾讯云高级工程师,主要负责宙斯盾安全防护系统管控中心架构设计和后台开发工作。 导语 宙斯盾 DDoS 防护系统作为公司级网络安全产品,为各类业务提供专业可靠的 DDoS/CC 攻击防护。在黑客攻防对抗日益激烈的环境下, DDoS 对抗不仅需要“降本”还需要“增效”。 随着云原生的普及,宙斯盾团队持续投入云原生架构改造和优化,以提升系统的处理能力及效率。本文主要介绍宙斯盾防护调度平台上云过程实践与思考。 为什么上云? 云原生作为近年来相当热门的概念,无论在公司内各部门,还是公司外各大同行友商,都
腾讯云原生
2021/10/19
2.2K0
腾讯搜索的系统架构是如何达到99.994%高可用的?
本文主要是搜索在稳定性治理实践的经验总结,讲述了搜狗搜索在技术债治理基础上如何将可用性提升一个量级,事故级 MTTD(平均故障检测时间)、MTTR(平均响应时间)优化一个量级,尤其在重大事故层次形成一个较强控制力。内容全面且实践性较强,团队的每项能力定位也比较清晰,除了核心的容灾、发现、应急建设,还在前置拦截、自动防御,风险扫盲等维度进行全方位治理。欢迎阅读~
腾讯云开发者
2023/06/13
1.9K0
腾讯搜索的系统架构是如何达到99.994%高可用的?
腾讯正式开源Spring Cloud Tencent,打造一站式微服务解决方案
导语 近日,Spring Cloud Tencent 于6月14日正式对外开源,作为腾讯开源的一站式微服务框架,Spring Cloud Tencent 实现了 Spring Cloud 标准微服务 SPI ,开发者可以基于 Spring Cloud Tencent 快速开发 Spring Cloud 微服务架构应用。Spring Cloud Tencent 的核心依托腾讯开源的一站式服务发现与治理平台  Polarismesh ,实现各种分布式微服务场景。 Github 地址(文末点击「阅读原文」即可跳转
腾讯云中间件团队
2022/06/20
5.8K0
腾讯正式开源Spring Cloud Tencent,打造一站式微服务解决方案
【大数据云原生系列】大数据系统云原生渐进式演进最佳实践
王玉君,腾讯云后台工程师,拥有多年大规模Kubernetes集群的开发运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。 谭春强,腾讯云后台工程师,拥有两年大数据EMR集群管控运维经验,目前负责腾讯云大数据EMR组件的容器化方向。 1.引言 随着云原生概念的兴起,越来越多的企业投身于云原生转型的浪潮,以解决传统应用面临的弹性能力不足、资源利用率较低、迭代周期较长等问题。通过云原生技术(如容器,不可变基础设施和声明式API等),使得企业在公有云、私有云和混合云等云环境构建和运
腾讯云原生
2020/09/22
4.1K0
推荐阅读
相关推荐
超时错误码减少99.85%,QQ聊天图片自研上云的技术详解
更多 >
交个朋友
加入HAI高性能应用服务器交流群
探索HAI应用新境界 共享实践心得
加入[游戏服务器] 腾讯云官方交流站
游戏服运维小技巧 常见问题齐排查
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档