首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >海量存储第一弹 - 自动化运维

海量存储第一弹 - 自动化运维

原创
作者头像
TEG云端专业号
修改于 2017-08-03 09:08:41
修改于 2017-08-03 09:08:41
3.5K0
举报

作者简介:裴泽良,2010年加入架构平台部,一直从事运营系统相关的建设工作,历经了腾讯海量存储及CDN服务的运营体系从入门到初级再到较为完善的各个阶段,目前专注于提升腾讯云上业务的运营质量,以及建设新一代高效与安全的自动化运维体系。

运营体系

在介绍我们的运营体系前,有必要先简单介绍下我们的业务及其特点,方便大家更好的了解我们的运营体系为何是这样。

图1架平所服务业务的特点

架构平台部(后面简称架平)承载的业务涵盖了腾讯主要的海量存储、CDN场景,譬如微信聊天图片&视频、朋友圈图片&小视频、空间相册图片&视频、腾讯视频点播&直播、腾讯云、微云等的文件、图片、视频、语音等场景,在全球拥有数十万台服务器、数百个机房、几十Tbps的下载带宽、EB级存储量,为全球用户提供上传、下载等服务。

TFS类存储系统提供了类似于文件系统文件存储服务,譬如微云里面的文件、朋友圈图片均存储在此,TDB类存储系统提供了KV存储服务,譬如QZone空间的feed、说说,以及TFS的索引数据等均存储在此。TFS/TDB类存储系统相关的内容会在本系列其他文章中有详细介绍,这里不再描述。

图2架平运营体系

架平的运营体系主要包括基础配置CMDB、成本预算核算、报表&流程&测试、质量监控、现网操作这五大块,这五大部分组合成一个完整的运营体,为部门业务安全可靠高效的运营保驾护航。

CMDB:基础性的配置管理,包括了设备、机房、业务等基础信息,主要提供设备资源提前报备、到货验收初始化、高危端口管理、设备转移退役等功能;

成本预算核算:部门承载了公司海量的存储、CDN服务,每年的运营成本占了公司总运营成本的相当一部分,必然要有全面、严谨的成本管控核算;

报表&流程&测试:业务多报表多,需要有个报表系统来统一管理,现网变更的管理、突发事件产生后的跟进需要流程系统,以及对现网质量关键的保障--自动化测试;

质量监控:我们的眼睛,时刻盯着数十万台服务器、成百上千个业务,一旦出现异常,最快秒级主动通知到负责人,降低对业务的影响时长;

现网操作:几十台机器的时候,不需要建设复杂专用的现网操作管理系统,几百台甚至上千台的时候还可以依靠ssh+expect这类脚本来搞定,但如果服务器达到数十万台、分布在各种不同运营商、甚至海外机房、aws等场景时,就必须要有一套专用系统来支撑对现网安全、高效的操作。

我们今天主要讲的就是海量设备、海量业务服务场景下的现网操作。

在安全与效率中追求极致的自动化运维

一、自动化运维的背景

这里说的自动化运维主要是探讨与现网操作相关的内容,譬如业务扩容、变更、异常的分析与处理等,这里面都会涉及到对生产机的操作,譬如要登录到生产机、要修改文件内容、要执行相关命令等。

当整个服务只有几十台机器、很少数业务的时候,可以不需要CMDB,也不需要专用的扩容/变更等系统,直接采用excel记录机器模块关系+ssh一台台登录到生产机的方式就能够满足日常的管理变更等需求,其实很早期的QQ后台也就是这么玩转的。

当机器规模上升到几百台、业务开始多元化的时候,很显然就需要建设规范化的CMDB,以及要借助专用的管理工具,譬如expect、ansible等,否则效率极低同时又极易出错引发人为事故。

但当机器规模上升到数万台、数十万台,且分布在全球各个区域、不同运营商,业务数量增长到以百计、千计时,这些开源的自动化运维工具也不可能无法满足我们的需求,我们就需要根据业务特点建设专用的运营管理系统。

二、 我们业务对自动化运维的诉求

海量业务服务下的运维理想中的效果就是各种各样的操作都能在安全的前提下同时拥有最高的效率。这里面的核心目标就是安全与效率,但这两者常常难以兼得,要操作效率那就不能任何操作行为都受到限制,否则就谈不上效率,要安全那就要求任何操作行为都提前审批、预定义好,但在复杂多变的业务场景下这就谈不上效率了。

当然了理想状态可能难以达到,但是我们可以靠近理想状态,通过建设自动化的运维体系从体系层面来保障安全,同时做到尽量减少人工参与,提升操作效率。

三、自动化运维的体系建设

图3生产机权限管理体系

架平数十万台服务器的安全管理,需要有专用的安全管控系统,目前我们采用了TEG安全平台部的铁将军+架平自身研发的权限层级授权体系来综合管控服务器的权限。

铁将军主要提供了登录鉴权、shell解析器劫持等功能。架平的权限授权体系主要包括了对虚拟业务平台、业务平台内的权限组、部门内部人员与权限组的对应关系、虚拟业务平台与CMDB业务模块以及机器之间的关联关系的管理,同时可对具体的权限组授权可执行命令白名单,然后把这些基础信息推送到铁将军。

在用户实际ssh登录到某台机器的时候,铁将军便按照这个规则来判断该用户是否有登录这台机器的权限,以及当用户成功登录进去之后输入shell命令开始执行时,铁将军也会判断用户所提交的命令是否包含在白名单内,不在白名单内的命令是无法被执行的。

通过这种权限管控体系,可以把不同业务的负责人相互隔离开,不同业务的负责人是无法相互登录到对方所负责的服务器,降低登录的随意性,以及虽然负责人能够登录到所负责的服务器,但也没有传统意义上的root权限,而是只能执行白名单内的命令,进一步降低随意操作的风险。这种方式拥有了一定的灵活性,同时也保证了一定的安全性。

图4自助化运营体系

上面主要描述了登录生产机的管控,但很多时候登录生产机本身就是一个低效率的行为,但用户仍然有对生产机操作的诉求,譬如异常的分析与处理,能不能不登录生产机就可以对生产机进行既安全又高效的操作呢?针对此需求,我们构建了全新的自助化运营体系。

如上图,该体系主要包括固化后常见生产机的操作场景(定义为工具)、快速搭建业务专用的操作场景(定义为流程)、操作的安全分级等部分组成。每个对生产机操作的功能都可以同时批量应用到指定的多台机器上,相较于直接一台台登录生产机,操作效率提升明显。

安全分级主要描述了每个操作的安全风险,高风险的操作每次执行时都需要相关人审批,低风险的操作每天会有操作机器数量的限制,操作数量内无需审批即可执行,超出数量后则需要审批才能执行,保证了安全的同时,也拥有了一定的灵活性。

常见生产机的操作场景是指我们把用户经常操作的场景固化到系统里面,譬如增加crontab项、减少crontab项,这样用户就不需要一台台登录生产机,通过自助运营系统就可以安全高效的完成操作,在系统内部该能力也称之为“工具”。

快速搭建业务专用的操作场景是指我们可以把已经固化到自助运营系统里面的工具自由组合成一个“流程”,由多个工具来共同完成一个复杂的操作场景,譬如业务模块的一键上架、异常的自动分析&处理等,我们在下面会详细介绍。

图5业务模块的一键上架

所服务的业务形态多,各种业务必然会有少许差别,对应在运营的某些环节,也可能会有细微的差别,譬如业务模块的扩容。某些业务模块的扩容不仅仅只是部署程序模块,同时还要申请TGW(腾讯内部使用的类似LVS的外网ip收敛负载均衡系统)、CL5(腾讯内部使用的名字服务负载均衡系统)、报备高危端口等,通过为该场景建设专用的流程,就可以实现该业务专用的安全高效的一键扩容的效果。

图6异常的发现&分析&处理全流程

海量业务的运营过程中,硬件的故障、网络的异常、软件的BUG等等各种各样的问题都很常见,所有异常如果都告警出来并由人来处理,那效率就会非常低。针对这种情况,我们建设了异常的发现(监控)->分析(分析系统)->处理(自动处理系统)全流程的体系。目前对于单机不可服务、硬盘故障或者某些常见的业务异常,已做到告警产生后,会自动触发分析流程,由具体的分析结果决策是自动调用处理流程,还是通知负责人来人工处理,在某些场景下已做到了完全不需要人工干预,提升异常分析&处理的自动化运维效率。

架平的海量存储对应了几十万级别的硬盘,行业内硬盘故障率约月千成之三,由此可知坏盘对于我们来说是再常见不过的情况,坏盘的处理流程涉及“发现->停现网服务->迁移数据->通知现场换盘->确认换好盘->初始化->加入服务”这些环节,如果每一块坏盘都需要人工介入处理,则效率极其低下。针对该场景,建设了坏盘自动化处理系统,除了实际换盘还需要人工处理之外,其他各环节已是全自动运转,大大提升了这种常见运维的处理效率。

关于体系建设这块儿已基本介绍完了,我们总结下介绍了架平的自助运营体系,生产机权限管理体系,以及几种常见运维场景下的安全化高效化的实践。通过自助运营体系把常见的现网操作集成进来,大大减少人工直接接触生产机、使用“黑字符”的频率,通过生产机权限管理体系,把不得不登录生产机的场景安全化管理起来。

四、移动化

移动化时代的今天,对现网的操作也同样有移动化的强烈需求。

当我们小伙伴在外面一起聚餐时出了一个故障需要处理,在以往我们要以最快的速度回到电脑前,当我们夜里睡觉的时候出了一个故障需要处理,在以往我们要以最快的速度打开电脑登录V**,当...

而现在我们将自助运营的能力通过企业号的方式下放到移动端,让用户通过手机就可以与生产机交互,完成常见的现网操作,让我们即使不在电脑前出现故障时也可以很从容。

文章来源公众号:腾讯架构师(TencentArchitecture)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
四大主流平台深度测评:2025企业自动化运维平台选型指南,自动化巡检平台适配关键场景
在数字化转型浪潮的推动下,2025年的企业IT环境已进入混合多云与信创融合的深水区。IT运维团队面临的不仅是海量、异构的资源,更是对业务敏捷性、安全合规和极致稳定性的多重挑战。IT自动化运维平台已成为企业数字化转型的核心基础设施。
运维老谭
2025/10/31
1180
四大主流平台深度测评:2025企业自动化运维平台选型指南,自动化巡检平台适配关键场景
四大主流平台深度测评:2025企业自动化运维平台选型指南,自动化巡检平台适配关键场景
在数字化转型浪潮的推动下,2025年的企业IT环境已进入混合多云与信创融合的深水区。IT运维团队面临的不仅是海量、异构的资源,更是对业务敏捷性、安全合规和极致稳定性的多重挑战。IT自动化运维平台已成为企业数字化转型的核心基础设施。
小星运维日记
2025/10/31
1150
2025自动化运维厂商选型指南:数字化转型下,自动化运维平台为何成为“必选项”?
随着企业IT架构从“传统单机”向“混合云+容器+信创”异构环境演进,运维工作正面临三重核心挑战:
运维老谭
2025/11/06
250
2025自动化运维厂商选型指南:数字化转型下,自动化运维平台为何成为“必选项”?
YashanDB数据库的自动化运维机制与应用效果研究
在当今的大数据时代,数据库系统的高效性和可靠性已经成为企业运营的重要组成部分。企业在数据量不断增长的背景下,面临着诸如数据管理复杂性增加、系统故障风险上升等多重挑战。尤其是在管理庞大的数据库时,如何优化查询速度、确保数据安全性和一致性、降低运维成本,都是亟需解决的问题。因此,建设高效的自动化运维机制显得尤为重要。
数据库砖家
2025/08/26
800
从零搭建一个自动化运维体系
DevOps的出现有其必然性。在软件开发生命周期中,遇到了两次瓶颈。第一次瓶颈是在需求阶段和开发阶段之间,针对不断变化的需求,对软件开发者提出了高要求,后来出现了敏捷方法论,强调适应需求、快速迭代、持续交付。第二个瓶颈是在开发阶段和构建部署阶段之间,大量完成的开发任务可能阻塞在部署阶段,影响交付,于是有了DevOps。 DevOps的三大原则: 1、基础设施即代码(Infrastructure as Code) DeveOps的基础是将重复的事情使用自动化脚本或软件来实现,例如Docker(容器化)、Jenkins(持续集成)、Puppet(基础架构构建)、Vagrant(虚拟化平台)等 2、持续交付(Continuous Delivery) 持续交付是在生产环境发布可靠的软件并交付给用户使用。而持续部署则不一定交付给用户使用。涉及到2个时间,TTR(Time to Repair)修复时间,TTM(Time To Marketing)产品上线时间。要做到高效交付可靠的软件,需要尽可能的减少这2个时间。部署可以有多种方式,比如蓝绿部署、金丝雀部署等。 3、协同工作(Culture of Collaboration) 开发者和运维人员必须定期进行密切的合作。开发应该把运维角色理解成软件的另一个用户群体。协作有几个的建议:1、自动化(减少不必要的协作);2、小范围(每次修改的内容不宜过多,减少发布的风险);3、统一信息集散地(如wiki,让双方能够共享信息);4、标准化协作工具(比如jenkins) 附上DevOps的定义: DevOps(Development和Operations的组合词)是一种重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作的文化、运动或惯例。透过自动化“软件交付”和“架构变更”的流程,来使得构建、测试、发布软件能够更加地快捷、频繁和可靠。
菲宇
2019/06/12
1.8K0
从零搭建一个自动化运维体系
自动化运维体系如何入手
运维是事件驱动,还是自驱动可能是我们在运维工作中不太关注的问题。事件驱动让运维止步于故障,而自驱动让运维不止于建设。持续性的运维建设就需要一套自动化的运维体系,那么我们应该从何入手?
iginkgo18
2023/07/21
9550
自动化运维,先做规划还是先建场景?
随着自动化运维在企业落地的成功案例和场景越来越多,更多的企业都在探索适合自身的自动化运维规划。
嘉为蓝鲸
2018/12/21
1.1K0
统一运维平台建设的一些思路和实践
企业构建一站式运维平台的目的是为了提升运维效率。那么一个成熟的运维系统应该要解决哪些问题呢?笔者认为首先是运维对象要被管理起来,然后是监控这些对象,接着是这些对象的自动化运维,最后是所有的运维操作都要有所规范。概括起来对应的系统就是CMDB、统一监控、自动化平台、ITSM,如下图所示。
用户1107783
2023/10/31
1.5K0
统一运维平台建设的一些思路和实践
运维管理一体化:构建多维一体化的运维体系
涉及关键词:一体化运维、平台化运维、数智化运维、运维PaaS、运维工具系统、蓝鲸等。
腾讯蓝鲸助手
2024/07/03
2.8K0
TEG海量运维服务背后的秘密
TEG为腾讯提供互联网行业全方位的运营解决方案和服务支持,运营着亚洲最大的网络、服务器集群和数据中心,拥有业内领先的基础架构云运营平台、云数据处理平台、互联网海量应用支撑服务平台,为亿级用户提供云计费服务和安全保障。这背后离不开一群7*24小时默默耕耘,负责标准化模块化数据中心网络架构、大集群平台自动化建设与运营,以及运营系统相关规划和建设,提供高可用保障体系的伙伴们。
TEG云端专业号
2018/09/25
3.2K0
裴泽良:海量存储与CDN的自动化运维
架构平台部提供的服务大家都使用过,微信QQ聊天的图片,朋友圈图片,QQ音乐里面的歌曲,腾讯游戏,应用宝里面的app的下载,腾讯云的COS对象存储,点播,直播,以及腾讯视频的点播,直播等产品。目前总存储量超过2EB,储备带宽超过100Tb,使用的服务器超过20W台,建设了1000多个OC机房,我们提供的服务总流量占据了腾讯90%以上的出口流量,负责托管的服务本身的运维人员只有50人。
TEG云端专业号
2018/09/25
8.9K4
运维自动化之殇 | 高效运维最佳实践05
这些年来,大家都在谈运维自动化。但大家是否也会困惑于“只见树木、不见森林”?或者说,做了几年的运维自动化,但依然不能确定还有哪些工作没做?怎么更优雅的实施运维自动化?
明哥的运维笔记
2019/01/30
2.6K0
去工具化/脚本化理解,自动化运维落地最佳实践之业务/架构/模型/方法
声明:本文来自于我的这些年运维创业服务经验,基于EasyOps自动化运维平台的经验总结,与大家分享。
用户1593318
2020/06/16
3.4K0
去工具化/脚本化理解,自动化运维落地最佳实践之业务/架构/模型/方法
自动化运维时代,我们该如何是好?
进入2018年以来,IT运维领域最热门的话题可能就是运维自动化,并且这种热门的趋势按照目前的发展态势,应该会继续扩展到2019年、2020年……
嘉为蓝鲸
2018/12/21
2.9K0
腾讯云数据库智能化海量运维的建设与实践
作者介绍:鲁越,腾讯云数据库架构师团队负责人,主要负责腾讯云数据库MySQL、Redis、Oracle等数据库售前架构、运维、调优等工作,曾就职于网易和尼比鲁。
腾讯云数据库 TencentDB
2018/06/12
3.4K0
从0到1构建支撑企业自动化运维体系
内容来源:2018 年 03 月 31 日,腾讯蓝鲸运营负责人杨文兵在“腾讯蓝鲸自动化运维沙龙(北京站)”行进行的《从0到1构建支撑企业自动化运维体系》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。
IT大咖说
2018/10/23
1.2K0
从0到1构建支撑企业自动化运维体系
业务运维部门的岗位价值与DCOS
岗位价值有: 权限缩小 提供操作安全的保险服务 提供操作的可扩展性 提供业务和资源能见度 屏蔽资源的部署细节 静态资源调平 动态资源调平 故障处理和善后 权限缩小 通过配置文件修改一个后台参数需要登录权限,文件修改权限,甚至进程起停权限。这些运营环境的权限需要尽可能的收归到很少的人的手里以控制风险。业务运维初期以人工接口的方式提供服务,后期以web应用的方式提供自助服务。如果后台开发人员做得比较完善可以直接提供web应用提供自助服务。但是很多时候业务开发部门的主要 KPI 不是提供运维的方便性,所以使得
小小科
2018/05/02
1.2K0
新浪微博平台自动化运维演进之路
摘要 新浪微博是一个由新浪网推出,提供微型博客服务类的社交网站。用户可以通过网页、WAP页面、手机客户端、手机短信、彩信发布消息或上传图片,是当下中国最火热的社交APP。微博产品资深运维架构师王关胜给
IT大咖说
2018/04/03
1.7K0
新浪微博平台自动化运维演进之路
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
织云平台团队
2017/12/17
5.9K0
腾讯云运维干货沙龙-海量运维实践大曝光 (三)
海量存储第二弹 - 立体化监控
本文主要介绍了在海量存储、海量业务的情况下,如何实现高可用的架构设计,并分享了在实现过程中遇到的挑战以及解决方案。包括使用分布式缓存、使用消息队列、集群管理、容量规划、异常流量清洗、业务监控、移动端支持等多个方面。
TEG云端专业号
2017/07/10
2K0
海量存储第二弹 - 立体化监控
推荐阅读
相关推荐
四大主流平台深度测评:2025企业自动化运维平台选型指南,自动化巡检平台适配关键场景
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档