首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

新一代数据中心:探路一体化运维管理

随着数据中心的发展和持续建设,数据中心呈现大型化、规模化、虚拟化等新一代数据中心的特征,数据中心的运维也面临着新挑战。为了适应和支持新一代数据中心的运行和高效管理,实现自动化、智能化的自主运维的目标,需要探索新一代数据中心一体化运维管理新模式,通过运行监控平台、智能管理平台、决策平台三个平台,以及新的运维组织管理模式来落地。

一、运维管理现状

数据中心运维经历了手工运维、自动化运维在到如今的云数据中心三个阶段的演化,现阶段的本质是全面实现数据中心极致自动化。数据中心 “运营专业化”的特征,它具有一定规模的数据中心、专业化分工以及独立的管理目标、组织与相应制度等,同时引入了一些体系化的管理框架与标准。

数据中心的运维管理,通常按系统、应用、网络、供配电等不同技术专业进行组织架构的设计及岗位职责设定。这样的管理模式,基于数据中心各专业、数据中心之间较为明确的物理界限,各司其职,能够发挥各自专业的特长。

然而这种模式,面向专业技术,以“高可用性”为目标,使得运维人员疲于应对运行监控、故障处理等工作,难以满足云数据中心资源化、面向业务服务的要求。

二、运维管理系统建设

新一代数据中心运维离不开信息系统的支撑,建立一套高效的、智能化高的信息系统,是提高运维效率、实现运维自动化的关键。

一体化运维管理系统是支撑数据中心运行有效手段和工具,它提供数据中心运行规划、监视、分析、决策、指挥、操作、控制和管理等功能,纵向上整合所有监控系统,横向上实现与其他系统的连接和信息交互,发挥综合效益,实现运行管理的智能化、自动化。一体化运维管理系统应能实现接入了多个数据中心、各分中心机房。

它包括运行监控平台、智能管理平台、决策平台等三个平台。

1、运行监控平台

运行监控平台是实现运维管理系统的基础和前提。监控的对象和范围是各个数据中心所有资源以及其他外部关联的信息,包括动力、场地环境、IT设备、系统、网络等。这些资源的基本上都有针对的独立监控产品及技术,如动力环境监控系统实现了电力、制冷、环境等资源的监控。因此,运行监控平台是对各监控系统数据的二次集中采集。而这不仅仅是简单的集中和搬运,必须有统一的数据源标准,包括统一规范编码、名称、数据类型、单位精度、更新频率、储存要求,举例如表1所示,从而保证数据源的统一、标准、准确性。

而采集之后的数据处理,包括预处理、结构化、储存和建模等,关键在于建立全景信息模型,即建立数据与数据之间的关联关系,并进行全景、直观地展示。它包括以资源为对象的全景信息建模、以应用为对象的全景信息建模以及以业务为对象的全景信息建模三个层次,可方便地追踪到某个数据或某个业务或某个设备所有相关信息,例如针对完成一笔业务交易,可以调出所有以此相关的资源信息,包括所属的应用、占用的CPU和内存、所消耗的电能和制冷等信息。如此以来,为故障处理、资源利用率评估、能效评估以及其他分析和应用提供数据支撑。

2、智能管理平台

智能管理平台在运行监控平台的基础上,通过构建资源、业务、应用等多种场景化专题视图,依靠大数据分析的手段,融合多种管理职能,实现所有数据中心的主动管理、精细化管理、智能管理的管理。实现智能化、自动化管理在于根据不同的运维场景,关联涉及的业务、应用、各类资源以及ITIL、开发等其他系统,设置告警、事件等触发条件,定义自动处置的程序,以实现特定的运维目标。

新一代数据中心的特征,使得各类资源没有明显的物理界限,运维管理另一重要方面就是各类资源管理,实现业务与网络、存储、内存、电力等资源的最优配置,建立基于多数据中心的资源灵活调度、快速切换机制,从而提升数据中心的安全性,提升整体的运行效能。

运维管理体现开放、共享原则,它不是固化的,是可自定义的,是智能化与自动化的,既体现在运维各专业之间、各技术人员之间内部的共享与互动,又体现在与客户、适用对象等其他相关人员的信息共享与交互,还体现在设备与设备之前、系统与系统之间的自动交互。

3、决策平台

决策平台位于运行监控平台和智能管理平台之上,它采用态势感知和决策支持技术体系、运维KPI体系,采用模型驱动的显示技术,兼顾传统的数据驱动的用户界面,为数据中运行和控制提供快捷的、智能的和自动化的任务导向的界面,提高用户对数据中心真实运行状态的掌握以及对运维决策的支持。

智能信息引擎,通过大数据分析技术,对各种智能应用数据进行处理,为运行全局和重点的态势感知提供有效的信息。

智能任务引擎起到承上启下的作用,它按照数据中心运行状态的认知规律, 针对运行特定需求,确定需要执行的流程,实现任务导向功能。

态势感知必须是关键任务驱动的,保证了用户根据数据中心运行状态、环境状态和设备运行状态特征,快速进行决策行为的选择。

任务根据设定的条件进行自动触发;一系列顺序触发的任务形成了流程,引导用户逐步实现任务,保证数据中心安全、优质、经济地运行。

综合展示界面以全景图为基础画面,展示数据中心运行的态势感知信息。运行操作界面以任务导向方式辅助进行运行控制和异常处理。

应用界面定制根据运行、管理和决策的任务需求,定制各种专项任务界面供运行、管理和决策人员按照任务需求单独或组合调用。

三、运维管理模式

运维管理系统是结合运维组织管理模式,依靠计算机技术,体现运维管理思想、方法与经验,实现运维自动化和智能化的手段和工具,从而有效地解放繁复的日常运维工作,有效提高运维效率。同时,运维管理系统促进了运维管理模式的转型和发展,这样的转型和发展也是新一代数据中心管理的需要。

运维管理模式经历了分散模式、集中模式、平台模式以及自主模式,这是运维管理不同发展的四个阶段,最终的目标是实现运维的自主模式。

前三种方式正是目前大多数数据中心已经经历或正在经历的阶段,前文从提及的以专业划分运维团队,并依靠各运维团队开发建设的系统或平台,也是基本上融合了前三种运维方式的特征。

而自主运维模式是正在探索与研究的方向,是真正实现主动运维的有效途径。它打通了用户、开发、运维之间繁琐的流程与界限,提供了针对不同专业、不同群体的接口,能够覆盖用户、开发、运维等所有相关人员的广泛参与度。

自主运维模式对管理系统要求较高,它要求有开放、统一、标准的平台和接口,融入了统一和标准的规范体系,具有强大的信息引擎、任务引擎等智能引擎,不需要人为集中推动,各相关人员都能够自主实现运维,比如当用户发现某一业务出现异常,即可在相关联的界面触发任务,此时系统能够自动分析,或通过系统自动解决问题,或要求开发人员接入,或要求运维人员更换某一硬件。

新一代数据中心的运维将越来越凸显技术、管理的重要性,无论是运维管理系统的建设还是运维管理模式探索,都需要加大运维研发资源的投入,依靠技术手段、依靠运维队伍转型,持续改进、不断总结提升。

(来源:金融新观察)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180213B0NW1N00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券