业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。
我们常说的应急演练,通常是先出一个异常事件场景,提前做好参与方的准备工作,按应急预案指挥整个演练过程,IT内多个团队、业务、供应商分工协作,形成整体联动,实现了从问题发现到启动应急响应机制,到故障诊断,现场应急恢复。通过演练过程,检验应急预案是否有效,可用性架构是否可靠,应急处置过程中判断是否准确果断,处理及时有效,内部分工明确,应急操作是否规范等,最终评价演练是否达到预期效果。
点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 MyCAT 源码解析 作业调度中间件 Elastic-Job 源码解析 分布式事务中间件 TCC-Transaction
上一篇提到运维左移围绕“提高业务连续性保障、提升业务交付速度、辅助提升客户体验、提升IT运营服务质量”4个价值分析运维左移,本篇围绕“提高业务连续性保障能力”这个运维价值分析运维左移的范围。
行话说“年头出事白干一年,年尾出事一年白干”。临近年关,数据中心“安全”也变得热门了起来。数据中心的人身、物理及信息安全有千头万绪。今天,我们来讲讲安全演练。此外,腾讯数据中心微信公众号将推出一系列以“数据中心安全”为主题的文章,敬请关注。 演练是保障数据中心安全运营举足轻重的一部分。通过演练,可提高运维人员的应急响应能力,也可对应急预案本身进行检验,发现其不足之处以便进一步完善。通过演练,可以1.暴露预案和流程的缺陷;2.发现应急资源的不足(包括人力和备品备件等);3.改善各应急部门、中心及人员之间的协
数智万物下,运维组织面临不断变化的内外部环境,不仅要应对每天海量信息轰炸,还需要对信息进行有效思考,沉淀经验转化为能力,推动学习型组织文化。通常来说,学习包括三种:一种是向前人学习,比如看书,吸收前人的归纳总结,获得知识;第二种是周边经验学习,比如向周围的朋友、领先的资讯知识、举一反三经验等学习;第三种是向自己(个人或组织)学习,通过自己的分析、讨论、思考,将自己经验转化为能力或知识。而“向自己学习”,最常见方法就是复盘,即对过去所做事情重新思考、分析,找出影响结果的因素,将好的行为或不足之处进行梳理,形成自己的经验知识,并最终转化为能力。
TakinTalks稳定性社区专家团成员。十年互联网行业研发经验,2015年加入哈啰出行,参与哈啰业务系统从0到1的建设,作为核心Owner主导多个重点稳定性保障项目,在高可用架构、技术风险等领域有丰富经验。目前主要牵头哈啰稳定性保障体系化建设,通过人员组织建设、工具/平台建设、关键项目落地等措施保障哈啰所有业务稳定性。
本篇是《数智万物下的运维思考》第3部分“流程”第3章的“故障管理中的事前管理”的部分内容。主要梳理一下最近行业中比较火的混沌工程,本文简单先从以下5个方面介绍一下我对混沌工程的理解:
随着系统架构不断升级,功能持续迭代,系统运行复杂性越来越高,故障的发生不可避免,且发生场景愈发无法预测。从企业角度看,系统故障影响客户体验,降低访问流量,带来交易损失,引发监管问责等;从系统架构角度看,系统故障反映的问题代表系统未来扩展性与局限性;从IT资源角度看,故障(尤其是重复性故障)将占用大量IT人力资源,影响IT价值创造能力;从运维角度看,故障是一个常态化的存在,故障既是业务连续性大敌,也是推动组织架构、人员能力、协同机制、工具平台持续优化的驱动力,对待好故障管理有助于建立学习型的运维组织。本文要解释的故障管理,除了指尽快恢复正常的服务以降低故障影响的相关措施,还尝试探索建立一个闭环的故障管理能力的模式。
最近好几个朋友和我聊传统金融行业中的运维智能化,如果用gartner创新曲线来映射我对智能化位置的定位,我觉得在传统金融行业中智能运维现在处于期望膨胀期与泡沫破裂低谷期之间(如下图),总体来说我对传统金融行业的运维智能化持保守态度(大概的思路与2年前的一个小结差不多,见《回归ITOA的思考》链接)。
运维人员经常需要在周末出去游玩的时候也带着电脑,因为很多情况下运维人员需要随时待命。笔者依稀记得2014年左右,我们10多个运维小伙伴团建时背着5斤重的电脑爬青城山的壮丽场面。当年的值班体系还不完善,其中部分原因如下。
面对不断复杂的生产环境,要增加TBF和缩短TTR的目标,需要围绕“故障发现、故障响应、故障定位、故障恢复”四个关键环节,在人员技能、协同机制、工具平台、数字化感知等方面进行统筹建设
网络安全的工作中自然逃不开应急响应这一茬,很多大型企业、政府、教育、医疗等单位不定期都会出现一些安全风险问题,这时候需要专业的安全服务工程师对系统网站进行安全事件分析及应急处置,对所发现的安全问题提供处理建议。
为了加强电子政务云平台运维团队收到用户报障或巡检发现异常后的处理应急机制,特制定本预案,主要包括以下内容:
上周运维圈里有一张“杭州灵隐寺智慧寺院”数据大屏的图火了,下午借此写一篇关于ECC中的可视化大屏。
最近由于疏忽误操作导致一次大故障,在此结合网上和实践经验,总结一下线上服务故障应急机制,警惕自己时刻注意服务稳定性问题。
1. 定期检修、维护。服务器硬件的性能受使用寿命的影响,定期对设备进行检修和维护可以及时发现可能出现故障的各类情况。例如硬盘读写缓慢、异响、阵列中硬盘掉线等都是即将出现故障的前兆。
每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。
故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前。在故障恢复中我们通常采用已知预案下的恢复三把斧:“重启、回切、切换”、自动或手动触发系统架构高可用策略、临时决断的恢复动作,以及恢复后的信息传递。
乐元素是国内休闲益智游戏领域领航企业。为了给用户提供更稳定可靠的使用体验,在2023年Q2开始,乐元素运维、业务团队联合腾讯云售后专家和技术专家,基于针对乐元素旗下休闲游戏产品《开心消消乐》展开同城双活改造项目,目的是了解并改善业务容灾部署状况,进一步强化云上业务系统的容灾能力。
一方面,线上故障会极大的影响个人的绩效和心态;另一方面,处理线上故障也是很好的提升解决问题能力的机会。因为线上故障的原因是多种多样的,会逼迫你去收集信息,从各种角度分析定位根因,然后想办法去优化解决。处理线上故障的过程,是一个复杂的判断和筛选过程,而解决故障后沉淀的经验,对技术同学来说,是很宝贵的职场收获。
墨菲定律暗示我们,如果担心某种情况会发生,那么它更有可能发生,久而久之就一定会发生。这警示我们,在互联网公司,对生成环境发生的任何怪异现象和问题都不要轻视,对其背后的原因一定要调查清楚。同样,海恩法则也强调任何严重的事故背后都是很多次小问题的积累,当到一定量级后会导致质变,严重的问题就会浮出水面。 那么,我们需要对线上服务产生任何现象,哪怕是小问题,都要刨根问底,对任何现象都要遵循下面问题
为了给客户提供更优质、更可靠的服务,金蝶业务团队从2022年开始,就已经在腾讯云售后专家的协助下,陆续对业务系统完成双活改造。改造完成后,业务团队通过腾讯云混沌演练平台进行故障注入,以检验业务系统的容灾效果,从而提升业务系统韧性。本次演练主要针对金蝶小微业务线(精斗云&KIS云),涉及10大业务故障场景,是财务、新零售、电商等领域行业提高系统可用性的一次最佳实践。
业务的不断演进,系统的数据量不断扩大,技术栈越来越复杂,系统模块越来越多,造成信息系统中断的事件的风险场景越来越多,中断事件的频率和种类持续增长,且有相当一部份事件会造成业务中断,可用性问题越来越严峻。一个严重的业务可用性问题通常是多个层面上的可用性保障均失效的结果,比如:架构的高可用能力,监控能力、自动化工具能力、应急能力等,所以说运维组织的事件管理能力特别的重要,应该本着“不浪费故障”的理念去深挖故障背后的问题,不断的完善每个环节的不足(当然,这里不提倡追责的方式分析故障)。可以用“海恩法则”来进一步解释可用性问题由量变向质变转变的过程:海恩法则:一起重大的飞行安全事故背后都会有29个事故征兆,每个征兆背后又有300个事故苗头,每个苗头背后还有1000个事故隐患。由此可见,对隐患、苗头、征兆的忽略,是导致意想不到的安全事故发生的罪魁祸首。《百度百科》
本部分介绍通讯冗余能力建设。是政策和战略维度最后一个章节,个人的研究也就到这里为止了。
组长:安全室管理员 副组长:各部室安全管理员 成员:各业务负责人、安全厂商、业务厂商
故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。
TakinTalks社区专家团成员。拥有多年开发和运维经验,专注高可用领域,目前负责中国人寿混沌工程等多项高可用举措的规划和落地实施,对于构建高可用系统具有深入的理解和实践经验。
现代企业的软件系统在确保连续运营方面扮演着重要角色。一个高可用的应急故障恢复方案能够确保在遇到灾难性故障时,能迅速、有效地恢复系统的正常运行。
一.引言 数据中心作为信息通讯的中枢,持续运转的服务器将产生大量的热量,若不及时将热量排出,聚集的热量将会引起服务器高温,从而影响设备稳定运行。 精密空调系统作为数据中心制冷的重要基础平台系统,是数据中心安全、稳定运行的保障。但是在实际运行过程中,空调系统并无法保证“全勤”,空调系统偶然的故障或者电力供应问题均有可能导致空调系统停机。空调系统从停机到再次恢复工作需要一定的响应时间,在该时间段内,服务器依旧处于工作状态,此时仍需要对机房温度进行控制,所以在除了原有空调系统外,还需配备额外的制冷系统,即数据中心
近年来,我国信息技术水平不断提高,得到了全面发展,促使各行各业进一步发展,尤其是机电数控技术与设备。数控机械设备自动化有效促进了企业的生产能力,同时能保证生产的安全性和生产质量。然而,当前数控机床设备在运行过程中易出现电气故障,会影响到整个设备的运行效率。基于此,分析数控机床设备电气故障,加强研究电气故障的应急处理,能够有效保证数控机床设备的运行效率和使用寿命。
养兵千日 用兵一时 柴发系统是数据中心在外市电异常时为设备提供应急电力供应的重要保障,其可靠性对于保证数据中心在极端情况下的业务稳定性和持续性有着重要意义。 由于完整的柴发系统由柴发机组、并机系统、供油系统、进排风系统、配电系统、接地系统和测试负载等组成,其可靠性会受到多方面因素的影响,除机组性能质量以外,其中尤以配电、并机、供油、进排风等四个子系统对整体可靠性影响较大。下文从架构设计、功能配置、维护保养等角度,对这四个子系统的可靠性影响因素进行了分析,并给出了一些相关的优化建议。 腾讯某数据中心集装
【数据中心运营回顾】 回顾数据中心运营的发展,感觉要聊的很多,但又发现不知从哪里开始。按发展阶段来聊,按所属行业来聊,感觉都比较难聚焦。那我们还是从数据中心对运营侧的要求和特点,来回顾聚焦一下现状: 1、 一味的高可靠性保障要求,建设投资高、系统复杂度高,运维成本高。 2、 保姆式服务要求,要求运维人员高度敏感,7X24小时,全天候随时响应保障,快速处理恢复。 3、 运营自动化程度低,一线运营工作靠人堆。 4、 基础设施监控的精细化程度和准确率不高,自愈能力差。 5、 缺乏数据中心整体运营的专业外
与集中式架构相比,分布式架构的系统复杂性呈指数级增长,混沌工程在信创转型、分布式架构转型、小机下移等过程中有效保障了生产的稳定性。本文分享了 TiDB 分布式数据库在银行核心业务系统落地中进行混沌测试的场景设计和实践。
中间件稳定性尤为重要,本文希望梳理从各个方面形成一个体系回答这个问题。推而广之,其他技术治理也类似。本文主要内容有:
前面介绍了SRE的基础,包括SLI和SLO以及Error Budget(错误预算)。其中:
今年夏天,杭州高温实现超长“待机”,截至29日已迎来42个高温日,较往年平均高温天数几乎多出一倍。午后室外尤其酷热难耐,人工巡检极易引发中暑。在此极端环境之下,无惧高温、不受天气因素影响的“小天”自然
随着云计算技术的快速发展,越来越多的企业和组织将其业务迁移到云平台,以实现更高效、灵活和可扩展的资源管理。然而,由于云环境的复杂性高,也为业务稳定性带来了一定的挑战,那如何确保业务的高可用性和数据的安全性呢?进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。
励炼之路: 空调系统的各位“大侠”桃园结义后,要想实现功成名就,长治久安,这可不是一件容易的事,一番苦心修炼,那是在所难免。 励炼一:机房温度恒定是如何炼成的? 1.1: “节能”的温度: 各位“机友”都关心服务器所处的机房环境温度是否正常?服务器运行温度是否恒定?是否有过热点存在?湿度是否合适等等。 说到“温度”,大家日常生活中都有听说:温度越低,空调越费电;适当提高温度,空调可以节能。 所以在11年的时候,在技术大牛Tuoc哥的指导下,天津数据中心运营团队与服务器运营组联合做了一个提高机房环境温度的节能
最近我负责的系统出了一次生产事故,这次事故竟然是因为流水号重复导致的。今天来给大家分享一下。
质量管理定义 数据中心运营质量管理指的是在数据中心运营的全生命周期中,有计划、有策略地对数据中心各子系统(IT、配电、空调、自控、安防、消防)进行巡检、维护、改造、优化等工作,确保各子系统都能保持在一个可靠的、稳定的、良好的工作状态,为业务提供物理环境上的安全保障。 质量管理目标 (1)举例:实现腾讯某数据中心全年电力系统可用率指标99.9999%。 (2)举例:实现腾讯某数据中心全年制冷系统可用率指标99.9999%。 (3)举例:实现腾讯某数据中心基础设施全年可用率指标99.9998%。 数
本篇是第二章“组织”中“2.2 个体岗位能力”第1节,主要聊聊运维适应性系统建设中,人员岗位能力这个组件要求。
柴发系统是数据中心在失去外电的情况下为设备提供应急电力供应的重要保障,其可靠性对于保证数据中心在极端情况下业务的稳定性和持续性有着重要意义。柴发系统的可靠性受到多方面因素的影响,如架构、设计、工程、设备质量、维保等,下文对相关环节中可能对可靠性产生影响的共性问题进行分析,并给出一些建议方案。
线上故障是我们技术同学经常遇到,也是技术成长中经常要经历的事。从故障中我们可以吸取到很多教训,变得越来越有经验。
在上一期《数据掘金者》中,主要介绍的是有别于传统日志的腾讯专有云日志平台。本期给大家带来是专有云中不可或缺的保险机制——容灾管理系统。
2023年12月27日,由中国信息通信研究院、中国通信标准化协会主办的2023系统稳定性与精益软件工程大会在北京举行。腾讯专有云《基于AZ内故障演练的专有云服务风险隐患排查》荣获第二届云系统稳定安全运行优秀案例-混沌工程实践优秀案例,《专有云机房断电恢复应急处置实践案例》荣获云系统运行故障应急处理实践优秀案例。
前言: 连雨不知春去,一晴方觉夏深。立夏之后,酷暑难耐就成了理所应当;持续高温高湿,间歇的雷雨台风,无一不彰显着大自然的桀骜不驯。如临大敌的数据中心从业者枕戈待旦,静候这场没有硝烟的数据中心暑期保卫战。本文即将为大家揭秘数据中心暑期保卫战作战兵法。 一、知己知彼,百战不殆 所谓知己知彼,是要对战场局势、敌我优劣了如指掌。对于数据中心经理(简称数经)而言,首先就是要编织一张高可靠的信息网。 1 天气预报 赤壁之战,诸葛军师夜观天象,巧借东风,一举挫败曹操八十万大军。虽然诸葛已逝,我辈无力窥天,但现代天气预报可
现在随着虚拟化技术的成熟,很多企业也在运用虚拟化技术。虚拟化技术的原理是将硬件虚拟化给不同的虚拟机使用。简单的说也就是一台物理的机器上可以有多台虚拟机,但如果就物理机器出现故障或者存储服务器出现故障都会导致上层的虚拟机不可用,还有包括人为误操作等原因,这些都会导致虚拟机里面的重要数据丢失。今天北亚小编要为大家分享的是关于vmware虚拟化误操作的数据恢复案例。
现在视频监控系统已经开始与公安管理联动起来,有效保护公共安全,对于公安这样重要的执法部门来说,高清化、无线化、远程、实时的监控是行业监控安全运作必备的前提条件。除此以外,公安视频监控系统还需要具备哪些功能?
领取专属 10元无门槛券
手把手带您无忧上云