你也许可以听听腾讯蓝鲸对于两个问题的解答,或许能够帮你和你的团队拨云见日、一扫愁云,看清未来的方向和出路。
前言:在上一篇文章《建立数据指标体系,推动DevOps全链路度量闭环》中,我们描述了基于数据来建立数据指标体系,通过指标体系达到主观事件客观呈现的效果。信通院的一些分析数据表明,企业IT的信息化历程逐渐完成,同时企业对IT的精益运行的需求越来越迫切,在这个场景下,数据的思维和使用能力成为制约提升IT生产效率的桎梏。
上一篇《腾讯蓝鲸是怎样在腾讯诞生的?》一文中,我们谈到了腾讯蓝鲸的转型背景和设计思路。其实在腾讯游戏的内部,有多个应用运维中心,十几个应用运维组,他们各自支持着不同的业务,各自处于不同的发展阶段和能力水平。
需要思考这个问题的原因,是因为AIOps不是到了某一个点就突然质变的,而是在持续演进过程中实现的。随着算法的日益成熟,整个运维体系也在改进的过程中逐渐完善,AIOps的道路才会慢慢清晰。因此,在达到目标之前,我们需要仔细规划怎么做才能更快实现AIOps。
在海量运营方法论的指导下,运维团队构建了体系化的运维能力,为众多产品保驾护航。
前言:在上一篇《运维数据生态:高阶落地的一些场景》中,从产品开发角度,探讨运维数据场景的高阶落地途径和方法。在数据的输出和变现的过程中,场景化作为最终落地的载体,而运维数据的输出和变现能力最终还是依靠前期的数据建设和质量管理,本章节中,我们着重对运维领域的数据建设和管理进行展开,来描述运维数据的管理方式。
提起腾讯的运维团队,第一个让人联想起来的名词当属“海量”,早在2004年腾讯前 CTO 张志东先生就提出了一套技术运营的方法论“海量运营之道”。
人们对新事物的认知过程总是螺旋式迭代演进的,对于智能运维也是如此,智能运维是运维发展的方向,而且是一个长期的过程—从经验主义到数据驱动,再回归到业务驱动的过程。
国家的“十四五”规划里面多次提到数字化相关概念,其背后反映了一种趋势——从数字化经济、数字化生活到数字化国家。近年来产业数字化不断加速,金融业的数字化更是走在前列,银行作为金融业的主要机构也在经历数字化转型的过程,在银行业务高速增长的背后离不开IT系统的支撑与支持,因此对IT系统的依赖与日俱增。IT运维是IT系统自身的运营管理,随着混合架构、互联网应用与传统应用的双模态发展,云计算、大数据、5G、移动互联等技术的应用,一方面对银行的发展带来了极大的助力,同时也对传统的IT运维带来了很大的挑战,智能运维的应用正在逐渐成为银行IT运维的新方向,已经有一些银行开始了智能运维的实践探索。
昨天有一篇《智能运维行业乱象:估值虚高、上市受阻、裁员频现》网文在运维圈十分火爆,有一些观点十分吸引人。今天,不对文章观点做评价,摘一小段《数智万物下运维》系列下我对金融企业智能运维的理解。
2016/2017年:刚开始做监控的时候,研究了几乎市面上所有监控产品,和相关的技术文章、视频。这个时候,主要是接触了大数据相关的技术,包括:Kafka、Spark、HiTSDB、ELK等。
今天,领先的数字原生企业不断用数字化手段颠覆传统行业,传统行业内领先的企业也在积极拥抱数字化,国家也适时的将“数据”列为生产要素参与分配,推动了以数据为关键要素的数字经济进入了新时代。站在企业内运营后台的运维部门,运维属于数据密集型工作,团队的价值创造都是在运维数字化工作空间中运作。
在IT行业,运维人常常自我调侃“赚着5k的月薪,操着5千万的心,名下挂着5亿的资产”。
今天准备谈下AIOps的内容,在我前面已经写过多篇文章谈DevOps研发运维一体化方面的内容,原来也一直看到AIOps的概念,潜意识里面理解是DevOps里面的一个子内容分解。而实际我们看到AIOps和DevOps没有必然的联系。
人们形容运维人的工作日常:不是在解决问题就是在解决问题的路上。以至于运维人自己也感叹干的工作是操着卖白fen的心、赚着卖白菜的钱……
转载声明:本文转载自「FineOPS」,搜索「FineOPS」即可关注。 当下企业很多都热衷于建设运维自动化、智能化,通过技术革新代替繁杂的手工运维,提高生产效率的同时最大程度的减少人为失误。但是如何
随着IT技术的发展,运维需求越来越多样,运维系统的架构也越来越复杂,各公司分别独立建设运维系统的技术和成本要求越来越高,因此越来越多的大型集团企业开始转变思路,考虑建设集团统一的一体化运维系统。
********本文是BLUES【公众号ID:bluemidou】向老王约稿,特授权blues独家首发,现转载如此,哈哈********
其实这个时候谈运维危机有点像在当下讨论股市危机一样,因此写这篇文章时,内心很纠结,特别是这个互联网运维才产生没多少年(10年)的行业,怎么你就来谈危机了?没办法,都因技术发展太快。
摘要 优云软件解决方案中心总监童华权为我们带来优云作为国内在运维领域做得比较深刻的厂商,在运维管理方面的一些见解。 运维面临的挑战 数据中心进入“两化转变” 数据中心转向“两化转变”,技术架构层面随着
2015年10月31日,以“运维2.0:行业的思与辩”为主题的2015 GOPS:全球运维大会 · 上海站 隆重开幕。本次大会由资深运维从业人士发起,四大运维体系首度同台汇演,一起深入讨论运维行业的现
对于企业而言,敏捷意味着对用户需求和市场变化有着快速响应能力,能够针对市场最新变化做出快速反应。因此,近年来云原生、容器、微服务等技术迅速崛起,成为企业数字化转型中关键的技术趋势。
好长一段时间没有更新公众号,回忆当初开这个公众号的初衷是为了将工作中一些零散的知识点汇总整合,形成为一个相对完整的知识体系。客观的讲,通过总结一些工作心得,让自己的运维知识体系的建设有些效果。年初与一个行业大牛的朋友交流时,在听到他年轻时在思科的一些关于将工作方法升华为方法论,比如“监、管、控”、“新网点”理念,并推动整个行业建设时为之一震。这个触动让我有了让自己的运维知识体系建设做第一次飞跃的打算,即如何将知识体系通过一个主线串起来。关于这个主线,找过一些朋友做了交流,比如“风险可控”、“一体化”、“更高效更优化的资源配置”、“可扩展性”。由于自己主要身处一线运维团队,所以选了“可扩展性”的主线,接下来打算根据这条主线,不断完善知识体系,目标是体系化的整理知识体系,主要从组织、流程、工具的可持续整合。
数字化时代,应用成为企业开展各项业务的落脚点。随着业务的快速发展,应用的功能迭代变得越来越频繁、业务系统变得越来越复杂、对IT资源的需求也变得越来越弹性。如何合理高效分配利用底层IT资源、管理上层应用、平衡二者关系,成为企业当下数字化建设中的重要关注点。
最近在做一些运维架构转型的工作,某些思想其实是借鉴了SRE的理念,就和DevOps一样,SRE已经不是一个新鲜的词汇了,尤其是在互联网的行业,无论从组织架构,还是工作属性,都是将SRE,融入其中,成为了软件生命周期中重要的一环。
本文探讨了运维未来的发展方向是智能运维(AIops),并提出了智能运维在故障定位、自动化运维和移动端运维等方面的应用。作者认为智能运维能够提高企业的运维效率,减少人为干预,并有助于企业更好地应对市场变化。然而,智能运维的发展仍面临诸多挑战,如数据质量、算法复杂度等问题。
####本篇转自老王在51CTO的一次线上交流,感谢峻峻Aily的整理,即时打字,不免错漏,请见谅。欢迎51CTO微信号:51CTO博客
在很早以前,记得给YY的产品经理讲什么是运维,当时给运维提炼出一个成熟度模型,囿于当时的认识,用技术模型来做了总结,简单总结如下:
运维组织中什么资产最为宝贵?网络设备、硬件设备、平台、软件、应用系统……不同的人有不同的理解,从我个人理解,最宝贵的是运维组织基于组织特点、能力禀赋,多年沉淀下来的运维工作模式,毕竟硬件可以过保更换、软件与系统会上线下线。遗憾的是,很多运维组织的工作模式仍主要由文档上的流程,每个个体头脑中的经验组成,这种方式存在大量不确定因素。事实上,有不少生产故障也是由于某个或多个未按规定的工作节点的失效引发。运维场景的重要思想是基于组织的经验,将组织的人、流程、平台的能力在线连接,形成全线上化、数字化的工作片断,所有片断便是运维数字世界砖块。
前言
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:
随着企业数字化转型的不断深入,利用AI技术改善运维和IT服务水平成为当前运维管理的主要关注方向。在此过程中逐渐生产了不同的发展策略:围绕着AI的平台化智能运维发展模式、场景化智能运维发展模式以及自建智能运维发展模式。
焦点话题 “数据中心悄然支撑着所有的数字生活。” 无论是街边想要说走就走的共享单车,还是业务系统里分分钟价值千金的数据流,生活中的方方面面都有着数据中心作为背后的强大支撑。当整体设计、建设质量等先天
当前互联网和移动互联网发展迅猛,从事各个行业的企业为了应对日趋激烈的市场竞争,纷纷进行了数字化转型,利用移动互联网技术、云计算及大数据等新兴信息技术发展企业的数字服务,从而吸引客户,帮助销售和推广产品,提升客户体验。 然而,随之而来的是规模不断扩大的IT系统、日益复杂的系统架构,以及海量的IT运维数据,同时公司业务对IT系统的连续性要求也进一步提高。 面对这些新形势下的挑战,IT 运维管理(ITOM)需要从原有的人工加被动响应,转变为更高效、更智能化的运维体系,为新形势下的IT系统保驾护航。 当前传统
清华大学计算机系副教授 裴丹于运维自动化专场发表了题为《基于机器学习的智能运维》的演讲,现场分享了基于机器学习的智能运维目前面临的挑战和解决思路。以下为演讲实录,今天大概内容包括智能运维背景介绍、如何从基于规则上升到基于学习。 首先会做一个背景的介绍;为什么清华大学的老师做的科研跟运维有那么多关系?智能运维现在已经有一个很清晰的趋势,从基于规则的智能运维自动化逐渐转为基于机器学习了。再介绍几个跟百度的运维部门、搜索部门进行合作的案例;最后,还要讲一下挑战与思路。 一、智能运维背景介绍 谈一下参加这次大会
腾讯运维十年,最重要的一件事情就是建立规则和次序。 这其中的过程可以分成几个阶段,包括:交付->组件->架构->监控;而这两年最重要的事情就是智能化。 交付 交付:在腾讯SNG可以认为十年前运维主
运维是一个被压抑了太久的岗位,在行业的一些交流中,很多公司的运维说,他们虽然掌控着运维环境,却逐渐被排挤出了业务运营的关键流程,对未来感到很迷茫。
一般使用备份,都是备份到远程服务器上,别问我为什么,备份到本地,服务器崩了,一切都瞎了啊,所以一下是备份到远程,但是可以在本地测试!
Mikey金字塔是由美国数字服务公司的Mikey Dickerson设计的。层次结构是为了说明,当尝试提高系统可靠性时需要按部就班,在到达更高级别之前满足每个低别级的要求。
目前,我国IT服务发展已经进入到相对稳定的增长阶段,有着极为可观的市场前景。据相关数据统计,2017年中国IT服务市场规模为6077.7亿元,同比增长16.2%,预计未来四年将保持13.8%年复合增长率,到2021年整体市场规模将突破万亿大关。
运维是一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,从最初的网络管理(网管)发展到现在的系统运维工程师、网络运维工程师、安全运维工程师、运维开发工程师等,可以看出,运维的分工一直在细化,并且对综合技能要求越来越高,可以看出,未来运维的发展趋势是高、精、尖,高表示高度,精表示精通,尖表示尖端,也就是运维职场一定要站在一定的技术高度,在多个技术领域中,要精通某项技能,同时对尖端前沿技术一定要能掌控趋势。
很高兴今天有机会在这里与大家交流,也要感谢普元提供的交流平台和普元CTO焦总的邀请。我今天与大家分享的主题是关于企业级应用的可靠运维实践的这个话题。 本次交流的内容主要包括我对运维工作的认识、运维与架
运维在当代企业的IT管理中处于非常重要的位置,下至机房环境、服务器和网络等硬件,上至业务应用,都需要运维参与管理维护。运维人员通过正确的流程、工具和团队组织,确保对应的IT资源始终处于可用状态,或者短暂宕机后能够快速修复故障,又或者新的IT资源和应用能够快速安全上线,满足企业的业务和发展的需求。
上一篇整理了运维组织的“2.1 组织专业化”,在细化横向的专业化分工之前,本章先看看“运维底线保障能力”(由于本人主要工作经验在应用运维与自动化,相关内容以应用运维为主),主要的部份内容是基于公众号另一篇《回归一线应用运维的底线——先做好最基本的事》之上做扩展。下一篇计划是“2.3 可用性保障能力”
今年四月,全球运维大会深圳站,由腾讯社交网络部运维总监聂鑫出品的《腾讯运维体系专场》圆满结束,备受好评。各位看客想必还是意犹未尽。九月,全球运维大会·上海站,聂鑫老师持续出品,携《腾讯运维双雄专场》为大家带来一整天的技术分享。 专场将会为大家带来独家秘笈: 腾讯运维体系实施路径与关键技术 夯实根基,非功能运维规范与技术实践 聚焦场景,面向业务价值的自动化运维 腾讯运维监控体系的几个核心实践 玩转运维数据,数据导向的运维规划 AIOps 探索与实践:预测、根源、根因 我知道,你等不及了。下面跟着小编
打算坚持每周把上班过程中遇到的一件事思考一下,并用图画出来,看看一年下来能有些什么变化。
作者 | Tina 在 InfoQ 成立 15 周年之际,InfoQ 编辑部发起了“2007-2022:云、运维、架构、前端的 15 年演进史”特别策划,将和业内专家共同盘点云计算、运维、架构、前端四大技术领域的演进历史,试图从几个切面窥见 IT 技术的演进规律。本文是运维篇。 特此感谢岳上、刘毅二位老师对本文的贡献,他们的真知灼见,是本文能与大家见面的关键。 运维的工作主要是“运行”和“维护”,本质上是保证软件系统的稳定运行。 中国互联网从 20 世纪 90 年代开始形成,随后进入快速发展阶段。中
我国高度重视数字经济发展。党的十八大以来,党中央、国务院审时度势实施数字经济战略,先后出台《国家数字经济战略纲要》《“互联网+”行动指导意见》《促进大数据发展行动纲要》等一系列重大政策文件,持续推动数字经济新业态新模式健康发展。
本文介绍了AI浪潮下的高效运维思考及实践,作者从AI与运维的结合点、面临的挑战、如何解决问题、腾讯SNG的智能化运维实践以及未来展望五个方面进行了详细阐述。
领取专属 10元无门槛券
手把手带您无忧上云