首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >这个巡检平台你还不知道,真是亏大了!

这个巡检平台你还不知道,真是亏大了!

作者头像
腾讯专有云
发布于 2022-06-24 09:29:24
发布于 2022-06-24 09:29:24
3.4K0
举报
文章被收录于专栏:腾讯专有云腾讯专有云

引言

巡检平台是一个面向运维人员的开箱即用的巡检产品,提供自动诊断问题的自动化运维能力。产品不仅提供了自动化的巡检能力和巡检报告给运维工程师使用,还针对巡检报告中的问题提供了运维专家经验的优化建议供修复时参考。运维人员也可以根据自己的定制需求,通过多样化巡检原子能力灵活定制个性化巡检项加入到定期巡检任务中,巡检原子能力包括脚本巡检、HTTP(S) 接口巡检和 IP 巡检;该平台还具备覆盖多个垂直产品和多个维度巡检的分类能力,运维人员可以根据产品归属不同人员等方式,让不同用户订阅不同的巡检报告,从而大大减少运维工程师定期手工巡检的工作量。

01巡检现状

随着专有云接入的云产品、交付的客户越来越多,云平台在日常运行过程中总会有一些疑难杂症和隐性的问题让运维人员头疼,为了保障云平台的稳定运行、业务的连续性,监控、日志、巡检这些成了云平台标配组件,其中巡检作为运维保障体系中重要的环节之一,能够帮助运维人员发现系统存在的隐患,提前治理,做到防患于未然。

在老巡检方案中,巡检由执行机+定时器+ Excel,在大规模集群下,这种老巡检方案逐渐暴露出了一些问题:

  • 巡检任务的执行依赖执行机,存在单点故障
  • 巡检结果分散在 Excel 中,不利于结果的收集和分析统计
  • 巡检脚本烟囱式发展,没有和 CMDB、监控告警、消息平台等系统打通
  • 巡检脚本分散在各云产品,没有平台统一管理
  • ......

这样的问题还有很多,并且随着云平台在可用性、可靠性、性能、水位、安全等方面要求越来越高,会有越来越多的产品需要巡检,一个灵活、稳定、可扩展的巡检系统就显得极其重要了。

02平台特性

巡检平台具有如下优势:

开箱即用:平台默认配置了大量巡检项和巡检计划,定时自动发起巡检任务和发送巡检报告;

专家优化建议:巡检任务定时执行成功后,平台会自动发出巡检报告,报告内容包含运维专家经验的优化建议供参考,即使运维新手也能相对容易的诊断运维问题;

灵活定制巡检项:针对高级运维人员,可以使用平台的上传脚本、HTTP(S) 和 IP 巡检方式定制巡检项,按照接入规范可以快速扩展新的巡检项;

订阅报告和告警:可以通过邮件、微信、短信等方式订阅不同巡检项的巡检报告,还可以根据告警级别及时订阅最近的巡检结果。

03产品架构

应用层

应用层作为巡检平台的统一入口,提供巡检项管理、计划管理、任务管理、报告详细查看和下载等功能。

概览:展示历史报告中告警数量(严重/警告/提醒)排序 TOP5 和趋势图、展示历史计划数和任务数的趋势图、展示历史报告中巡检分布比例和数量,包括产品、巡检分组、告警类别。

巡检计划:自定义巡检计划的巡检项、执行频率、告警接收人,启停操作。

巡检项:支持脚本巡检、HTTP(S) 巡检、IP 巡检(TCPUDPICMP协议等,支持为巡检项设置超时时间,支持对巡检结果配置警报规则。

巡检任务:查看任务进度、停止任务、查看任务日志。

巡检报告:支持查看巡检报告报告的概览和详情,并能下载 HTML/CSV 格式的报告。

存储层

存储层负责保存巡检平台的相关数据,分成 Etcd、MySQL、包管理 3 个模块:

  • Etcd:存储动态数据,例如巡检计划、巡检项、执行中的巡检任务等,这里引入 Etcd 主要是使用了 Watch 机制来实现计划的定时调度和巡检任务的触发;
  • MySQL:用于存储静态数据,例如巡检报告、执行结束的巡检任务、操作记录等;
  • 包管理:包管理是巡检平台之外一个独立的服务,提供了软件包上传、下载、版本管理的功能,这里引入包管理来实现巡检脚本的管理。

逻辑层&调度层

逻辑层&调度层负责巡检任务调度执行、结果收集、规则判断、报告发送等核心逻辑。巡检平台借助流程编排引擎实现巡检任务调度执行这部分功能,流程编排引擎是专有云自动化运维的基础组件,提供了流程编排和流程调度到指定机器执行的能力,在编排能力上提供了超时控制、子流程、分支拆分以及合并等,在执行能力上提供了命令执行、执行结果收集、执行结果上下文共享等,这些能力足以覆盖巡检平台的需求:

  • InspectionItem Controller:负责将巡检平台巡检项翻译成流程编排引擎认识的流程模板,同时维护巡检项和流程模板之间的映射关系,每个巡检项对应流程编排引擎中的一个流程模板;
  • Job Controller:负责消费 Etcd 中的巡检任务,一个巡检任务关联着一个或者多个巡检项。首先根据巡检任务关联的巡检项生成一个父流程模板,每个巡检项都与父流程模板中一个 SubWorkflow 类型的 Node 对应;接着会以这个父流程模板创建一个流程实例,每个巡检任务都对应流程编排引擎的一个流程实例,实例创建后会不断查询流程实例的状态,直到流程实例为终态(Succeeded、Failed);然后会根据流程实例的执行输出收集巡检结果;最后根据巡检结果进行规则判断、巡检报告生成和通过消息平台实现巡检报告的发送;
  • CronJob Controller:负责周期性创建巡检任务,实际是往 Etcd 生产一个巡检任务。

在大规模巡检下,为了保障巡检平台的稳定性以及防止大量并发任务把巡检目标打爆,巡检平台提供了并发控制策略、超时控制策略。在并发控制方面提供了 3 种策略供使用者选择,用户可以根据不同业务场景选择相应的策略:

  • AllowConcurrent:允许并发策略,如果上一个巡检任务还未结束同时又到下一次调度的时间点,这时候调度器会正常创建巡检任务,同时跑两个任务;
  • ForbidConcurrent:禁止并发策略,如果上一个巡检任务还未结束同时又到下一次调度的时间点,这时候调度器会放弃创建这个时间点的任务,直到上一个巡检任务结;
  • ReplaceConcurrent:替换策略,如果上一个巡检任务还未结束同时又到下一次调度的时间点,这时候调度器会停止上一个任务的执行,然后创建一个新的巡检任务;

在超时控制方面,用户可以为每个巡检项设置超时时间,执行超时的巡检项会自动被 kill 掉继续执行下一个巡检项。

执行层

执行层由一个或者多个执行机组成,每个执行机都部署着流程引擎命令通道依赖的 agent、python 环境,由 agent 执行来自逻辑层&调度层下发的巡检任务,任务的执行结果通过 stdout 或者公共函数 set_output 导出的方式收集到巡检平台。巡检很依赖巡检目标服务的稳定性,当出现网络抖动的时候很可能就会出现巡检失败,为了弱化这些环境因素带来的影响,在执行层的加入了优雅的重试机制,会在巡检失败的时候进行重试,默认重试次数是 3 次,会在一定范围内随机等待一个时间后重试。

04效果实现

内置巡检项

巡检平台内置了 400+ 巡检项,覆盖了计算、网络、存储、平台等核心产品,巡检类型涵盖了可用性、可靠性、性能、水位、安全,这些内置巡检项开箱即用,一键巡检,无技术门槛。

巡检成果

巡检平台已经稳定运行大半年的时间,接入了 400+ 个巡检项,巡检项覆盖专有云大部分产品,执行了 30000+ 次巡检任务,总共发现了 200000+ 个系统隐患。

最近 7 天巡检发现的系统隐患趋势图如下:

最近 7 天巡检报告-巡检项分布图如下:

目前巡检平台通过制定巡检项开发规范来巡检标准化,通过平台来调度执行巡检来实现巡检流程化、自动化,但是对于巡检后发现的隐患仍需人工去解决,无法做到巡检+治理全自动,下一步将在联动智能诊断、大数据分析方面进行探索尝试,配合运维平台实现自动化处理。

-END-

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯专有云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【经验分享】银行应用运维平台设计与建设建议
本文主要介绍银行业务的发展趋势、应用架构演进以及在此背景下应用运维面临的挑战和解决方案。文章目录如下,是笔者过去5年作为乙方在多个银行设计和落地应用运维自动化的经验分享,共11000字,阅读时长大约10分钟。
嘉为蓝鲸
2020/05/26
1.8K0
【经验分享】银行应用运维平台设计与建设建议
如何构建万级Kubernetes集群场景下的etcd监控平台?
周成,腾讯云工程师,主要负责腾讯 etcd 监控平台设计、开发、运维工作,具备大规模 Kubernetes 和 etcd 集群运维开发经验。 唐聪,腾讯云资深工程师,极客时间专栏《etcd实战课》作者,etcd活跃贡献者, 主要负责腾讯云万级K8s集群和内部业务的公共etcd平台以及serverless 产品研发设计工作。 背景 随着 Kubernetes 成为容器编排领域的霸主,越来越多的业务大规模在生产环境使用 Kubernetes 来部署、管理服务。腾讯云TKE正是基于原生 Kubernetes,提
腾讯云原生
2021/03/08
1.3K0
【腾讯云顾问产品白皮书】重磅发布
随着云计算技术的快速发展,企业上云已成为推动业务创新和发展的重要手段。在这个过程中,构建一个高效、稳定、安全的云上架构成为企业面临的关键挑战。腾讯云卓越架构框架(Tencent Cloud Well-Architected Framework)旨在为企业提供一套全面的设计理念,帮助客户解决业务上云后的关键问题。
Smart Advisor
2024/08/20
5361
【腾讯云顾问产品白皮书】重磅发布
统一运维平台建设的一些思路和实践
企业构建一站式运维平台的目的是为了提升运维效率。那么一个成熟的运维系统应该要解决哪些问题呢?笔者认为首先是运维对象要被管理起来,然后是监控这些对象,接着是这些对象的自动化运维,最后是所有的运维操作都要有所规范。概括起来对应的系统就是CMDB、统一监控、自动化平台、ITSM,如下图所示。
用户1107783
2023/10/31
1.4K0
统一运维平台建设的一些思路和实践
美团MySQL数据库巡检系统的设计与应用
巡检工作是保障系统平稳有效运行必不可少的一个环节,目的是能及时发现系统中存在的隐患。本文介绍了美团MySQL数据库巡检系统的框架和巡检内容,希望能够帮助大家了解什么是数据库巡检,美团的巡检系统架构是如何设计的,以及巡检系统是如何保障MySQL服务稳定运行的。
美团技术团队
2020/06/09
1.5K0
基于 Docker 持续交付平台建设的实践
作为创业公司和推行 DevOps 工程师们来说,都遇到过这样的问题: 1. 硬件资源利用率的问题,造成部分成本的浪费 在网站功能中不同的业务场景有计算型的,有 IO 读写型的,有网络型,有内存型的,集中部署应用就会导致资源利用率不合理的问题。比如,一个机器上部署的服务都是内存密集型,那么 CPU 资源就都很容易浪费了。 2. 单物理机多应用无法对应用进行有效的隔离,导致应用对资源的抢占和相互影响 一个物理机器跑多个应用,无法进行所使用的CPU,内存,进程进行限制,如果一个应用出现对资源的抢占问题,就会引起
DevOps时代
2018/02/02
1.7K0
基于 Docker 持续交付平台建设的实践
风险感知场景(一)之“监控、拨测、巡检、可观测性”
从发现风险角度,我们经常会从监控、拨测、巡检、可观测性、演练、混沌工程等角度发现风险。上周和必示的温博后聊了一下风险感知,今天理理思路,摘“监控、拨测、巡检、可观测性”4点做个简述,再看看风险感知场景的切入点。
彭华盛
2022/11/16
3.9K1
风险感知场景(一)之“监控、拨测、巡检、可观测性”
借自动化实现数据库的安全运维和跨界运维
“不想当将军的士兵不是好的战士”、“不想当CIO的DBA不是好的运维”。在每天面临如此多的来自工作量、运维安全、技术更新挑战的同时,我们还需要不断的成长与思考:
嘉为蓝鲸
2018/12/21
3.4K0
擢升运维价值,引领信息产业发展
中国移动通信集团北京有限公司(下称北京移动)成立于1999年,隶属于中国移动通信集团公司,秉承“正德厚生,臻于至善”的企业核心价值观,紧密围绕“做世界一流企业,成为移动信息专家”的战略定位,以卓越品质锻造一流信息服务,用创新精神努力实现从优秀向卓越的新跨越,着力推动“移动改变生活”。
嘉为蓝鲸
2024/01/25
2150
擢升运维价值,引领信息产业发展
运维专题第3期:诊断专家
在上一期《运维专题第2期:警戒哨兵》中,我们介绍的是运维平台中的监控系统——云哨,今天给大家带来的产品是巡检平台,在运维过程中能够跟监控系统一起为客户带来稳定的保障。
腾讯专有云
2022/06/24
9270
运维专题第3期:诊断专家
运维产品家族揭秘
云最难的,就是如何运维了,如何监控指标、告警、报表等信息并提前预判异常?出了故障能第一时间找到根因、路径吗?过程可视化吗?故此,小编找到我们 TCE 的运维产品经理,大家群策群力,倾情打造运维产品力专题,从价值视角,分享运维对云的贡献。
腾讯专有云
2022/06/24
1.1K0
运维产品家族揭秘
蓝鲸助力太平集团,升级运维生产力!
2018年12月,经过嘉维蓝鲸项目组近半年的努力奋战,太平集团成功上线了蓝鲸研发运营一体化平台,实现了IT运维全流程标准化和调度自动化,并取得了如下收益:
嘉为蓝鲸
2019/01/16
1.1K0
干货 | 携程万台规模容器云平台运维管理实践
周昕毅,携程系统研发部云平台高级研发经理。现负责携程容器云平台运维,Cloud Storage及Cloud Network基础设施研发及运维。
携程技术
2019/04/22
3K0
干货 | 携程万台规模容器云平台运维管理实践
2022爱分析· IT运维厂商全景报告
IT运维指的是企业IT 部门采用相关的方法、手段、技术、制度、流程和文档等,并借助各类运维工具,对IT软硬件运行环境、业务系统、运维流程、运维人员等进行综合管理。
爱分析ifenxi
2022/06/24
9210
2022爱分析· IT运维厂商全景报告
【云顾问-混沌演练】乐元素 x 腾讯云混沌演练平台:游戏业务同城双活改造最佳实践
乐元素是国内休闲益智游戏领域领航企业。为了给用户提供更稳定可靠的使用体验,在2023年Q2开始,乐元素运维、业务团队联合腾讯云售后专家和技术专家,基于针对乐元素旗下休闲游戏产品《开心消消乐》展开同城双活改造项目,目的是了解并改善业务容灾部署状况,进一步强化云上业务系统的容灾能力。
ainsley@tencentcloud
2024/01/29
6600
破局数据中心运维:AR 智能眼镜巡检如何“大显神通”?
AR智能眼镜巡检是数据中心运维数字化的核心技术之一,通过将虚拟信息(如设备状态数据、故障指引、操作流程)与真实机房场景实时叠加,解决传统巡检中 “效率低、误差高、依赖经验” 等痛点,已成为大型数据中心提升运维可靠性的关键手段。
阿法龙XR云平台
2025/07/21
1350
破局数据中心运维:AR 智能眼镜巡检如何“大显神通”?
腾讯云TStack白皮书
腾讯云TStack是腾讯基于自身强大技术能力和海量运营经验推出的私有云平台,提供集IaaS、PaaS和SaaS为一体的综合云服务解决方案;支持对国产CPU的虚拟化,并通过云管理平台软件提供云主机、云存储、云网络和云负载均衡等IaaS层基础功能。大量私有化部署经验,具有高稳定性、统一管理、可视化运营等特点,强兼容性可与国产服务器实现良好适配,助力政府、企业构建稳定安全的云环境和健康的云生态。
腾讯云TStack
2020/06/05
8.9K7
优云新一代智能化运维管理解决方案
摘要 优云软件解决方案中心总监童华权为我们带来优云作为国内在运维领域做得比较深刻的厂商,在运维管理方面的一些见解。 运维面临的挑战 数据中心进入“两化转变” 数据中心转向“两化转变”,技术架构层面随着
IT大咖说
2018/04/04
4.5K0
优云新一代智能化运维管理解决方案
蓝鲸智云的幕后英雄:管控平台
蓝鲸智云,简称蓝鲸,是腾讯游戏运营部“腾讯智营”下的子品牌。它是一套基于 PaaS 的企业研发运营一体化技术解决方案,提供了一个完整的研发、运维、运营的PaaS技术平台。
嘉为蓝鲸
2018/12/21
3.8K0
多云是云计算发展的必经阶段
云计算历经十余年的发展,经历了最初的普及阶段后,目前仍处于高速发展期。在此期间,云计算历经以虚拟化为基础的第一阶段,以基础设施资源服务化为基础、引入软件定义网络(SDN)及软件定义存储(SDS)等相关技术的第二阶段,以基础设施即服务(IaaS)、平台即服务(PaaS)、数据即服务(DaaS)融合为代表,糅合公有云及私有云而形成混合云能力的第三阶段。目前正步入下一阶段:全面的多云阶段,即基于混合的、异构的多种公有云、私有云,形成全面云上的企业IT架构,并借助云管理平台(CMP)的能力,实现业务系统的全分布,利用云的能力做跨云的分析。
楼炜
2019/04/30
1.6K0
推荐阅读
相关推荐
【经验分享】银行应用运维平台设计与建设建议
更多 >
交个朋友
加入HAI高性能应用服务器交流群
探索HAI应用新境界 共享实践心得
加入架构与运维学习入门群
系统架构设计入门 运维体系构建指南
加入架构与运维工作实战群
高并发系统设计 运维自动化实践
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档