Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何构建 “先发制人”的远程管控系统(--内存篇章)

如何构建 “先发制人”的远程管控系统(--内存篇章)

原创
作者头像
nonhalt_001
修改于 2021-11-20 08:28:03
修改于 2021-11-20 08:28:03
9240
举报

新冠疫情引发全球健康危机,全球人口被迫在家工作、学习、社交、进行零售交易、娱乐,甚至与医疗保健提供者见面。正如微软首席执行官萨蒂娅·纳德拉(Satya Nadella)在全球健康危机爆发60天左右时所说的一句名言,“我们在两个月内见证了两年的数字化转型。”

如今,所有社交媒体、视频会议、云协作平台、电子商务、远程医疗、在线教育和在线娱乐都依赖于高可用数据中心以及可靠的服务器硬件。数据中心现在被世界各国政府正确地列为重要的基础设施。我们的数据中心和驻留在那里的硬件比以往任何时候都更需要保持在线,以便数字经济保持正常运行。

业务连续性

根据美国正常运行时间研究所(Uptime Institute)的2020年数据中心调查,与前几年相比,疫情爆发后,工作与生活有很多的事情从线下转到线上。“停机频率令人不安,更大的停机正变得更具破坏性和成本”。

上海泓戟致力于为行业客户提供业务连续性的解决方案,以创新的手段实现运维极简化和智能化。

新一代edgeCentralMX敏捷远程管控系统,将英特尔公司MFP(Memory Failure Prediction)内存故障预测方案集成在管理系统中,集中统一的可视化界面实现对广泛连接的数据中心和边缘计算场景的服务器进行远程管控和预测性维护。

作为数据中心发生的三大硬件故障之一,内存故障直接影响服务器的可靠性。此外,内存故障可能会产生毁灭性的影响,如何给数据中心运营商提供未来中断的足够早的警告,以便采取先发制人的行动?是当前亟待解决的问题。

利用机器学习来分析实时内存健康数据,可以提前预测此类故障。机器学习是一种自动建立分析模型的数据分析方法,它使用的算法是从数据中迭代学习的,这样计算机就可以找到隐藏的见解,而无需对在何处查找这些见解进行显式编程。

分析实时内存运行状况数据和避免内存故障的能力最终会为客户带来更好的体验。对于在线服务平台和云服务提供商这样的组织来说尤其如此,它们严重依赖于服务器硬件的可靠性、可用性和可维护性。正是这些类型的企业正经历着今天不断飙升的需求。

通过在其数据中心部署内存故障预测解决方案并将其集成到现有管理系统中,IT员工可以分析其服务器内存故障,减少停机时间,并改进其当前的双列直插式内存模块(DIMM)更换策略。

这种内存故障预测解决方案使用机器学习来分析服务器内存错误,直至DIMM、存储组、列、行和单元级别,以生成每个DIMM的内存运行状况得分。随着时间的推移,健康评分的变化可以在影响发生之前就发出问题的信号,为转移工作量和/或采取其他行动提供足够的前置时间。

为了更好地了解内存运行状况评分是如何生成的,有必要了解内存故障预测引擎被放置在BIOS固件中,并在内存错误发生时接收警报。当服务器在特定内存区域中出现突发错误时,将检查DIMM运行状况评估模型(DHAM),以评估是否需要修改受影响的DIMM的运行状况得分。如果是这样,则相应地更改分数并将其传递给基板管理控制器(BMC)。最终通过IPMI over LAN传递给edgeCentral MX敏捷远程管控系统。

一些用户测试部署表明,如果在其整个服务器网络上部署edgeCentral MX敏捷远程管控系统和英特尔公司MFP(MemoryFailure Prediction)解决方案,由硬件故障引起的服务器崩溃可减少50%以上。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
服务发现对比:Zookeeper vs etcd vs Consul
我们拥有的服务越多,如果我们使用预定义的端口,就会发生冲突的可能性越大。毕竟,在同一端口上不能监听两个服务。管理一百个服务所使用的所有端口的紧密列表本身就是一项挑战。将那些服务所需的数据库添加到该列表中,数量会增长得更多。出于这个原因,我们应该在不指定端口的情况下部署服务,并让Docker为我们分配一个随机服务。唯一的问题是我们需要发现端口号并让其他人了解它。
sunsky
2020/08/20
2.7K0
服务发现对比:Zookeeper vs etcd vs Consul
服务器内存故障预测居然可以这样做!
随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障的故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。
2020labs小助手
2022/07/26
18.8K1
在家办公心不慌,运维请收好这几个远程管理软件
分享@央视新闻制作的新型肺炎疫情防护措施线路图。宅在家里,上班路上,返程路上,这些防护措施请牢记↓↓↓
用户6543014
2020/02/21
8510
系统设计:负载均衡
负载平衡开始于20世纪90年代,当时硬件设备通过网络分发流量。组织希望提高服务器上运行的应用程序的可访问性。最终,随着应用程序交付控制器(ADC)的出现,负载平衡承担了更多的责任。它们提供了安全性以及在高峰时间对应用程序的无缝访问。
小诚信驿站
2021/06/18
1.8K0
系统设计:负载均衡
3.4 事中故障处理(3)故障定位
故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。
彭华盛
2021/09/14
1.8K0
事中故障处理(4)故障定位
故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前。在故障恢复中我们通常采用已知预案下的恢复三把斧:“重启、回切、切换”、自动或手动触发系统架构高可用策略、临时决断的恢复动作,以及恢复后的信息传递。
彭华盛
2021/10/08
1.5K0
构建可靠系统的策略
构建能够应对分布式系统中不可避免的故障是工程师面临的基本挑战。当软件跨网络和服务器部署时,故障不再是例外,而是必然的。硬件可能会出现故障,网络可能会分区,整个数据中心可能会离线。随着复杂性的增加,潜在的故障点也会增加。
用户5166556
2023/09/07
2320
构建可靠系统的策略
谈一谈企业级IT运维管理体系建设
随着企业数字化转型升级进程的加快,企业IT系统架构越来越复杂,软件更新迭代越来越快。企业信息化建设中的大量业务和数据需要依靠信息系统来完成,这使得构建稳定可用的IT系统成为企业业务发展的基础条件,而IT运维管理也随之成为企业信息化建设的重要环节。
华汇数据
2022/10/19
9680
谈一谈企业级IT运维管理体系建设
运维可用性能力建设
业务的不断演进,系统的数据量不断扩大,技术栈越来越复杂,系统模块越来越多,造成信息系统中断的事件的风险场景越来越多,中断事件的频率和种类持续增长,且有相当一部份事件会造成业务中断,可用性问题越来越严峻。一个严重的业务可用性问题通常是多个层面上的可用性保障均失效的结果,比如:架构的高可用能力,监控能力、自动化工具能力、应急能力等,所以说运维组织的事件管理能力特别的重要,应该本着“不浪费故障”的理念去深挖故障背后的问题,不断的完善每个环节的不足(当然,这里不提倡追责的方式分析故障)。可以用“海恩法则”来进一步解释可用性问题由量变向质变转变的过程:海恩法则:一起重大的飞行安全事故背后都会有29个事故征兆,每个征兆背后又有300个事故苗头,每个苗头背后还有1000个事故隐患。由此可见,对隐患、苗头、征兆的忽略,是导致意想不到的安全事故发生的罪魁祸首。《百度百科》
彭华盛
2020/03/06
2.5K0
《AI加持,SQL Server预测性维护全攻略》
在数字化时代,数据就是企业的生命线,而SQL Server作为一款应用广泛的关系型数据库管理系统,承载着企业海量的数据资产。但数据库运行过程中,故障就像隐藏在暗处的“定时炸弹”,随时可能引发数据丢失、业务中断等严重后果。传统的被动式维护模式往往是在故障发生后才匆忙应对,难以满足企业对数据稳定性和业务连续性的高要求。而AI技术的兴起,为SQL Server的维护带来了革命性的变化,让预测性维护成为可能,帮助企业提前规避潜在故障。
程序员阿伟
2025/03/25
950
《AI加持,SQL Server预测性维护全攻略》
【云原生 | Kubernetes篇】Kubernetes简介(一)
例如,如果在物理服务器上运行多个应用程序,则可能会出现一个应用程序占用大部分资源的情况, 结果可能导致其他应用程序的性能下降。 一种解决方案是在不同的物理服务器上运行每个应用程序,但是由于资源利用不足而无法扩展, 并且维护许多物理服务器的成本很高。
Lansonli
2022/06/03
6640
【云原生 | Kubernetes篇】Kubernetes简介(一)
1.k8s的前世今生
k8s是Kubernetes的缩写,Google 于 2014 年开源了 Kubernetes 项目。
用户7798898
2022/05/09
1.7K0
1.k8s的前世今生
Jtti:何为DCIM软件 有哪些用途
DCIM代表"Data Center Infrastructure Management",是一种用于管理数据中心基础设施的软件解决方案。DCIM软件帮助数据中心管理员监控、管理和优化数据中心的物理设备、能源使用、空间利用等方面的运营。它的主要目标是提供对数据中心基础设施的综合性视图和控制,以实现更高效的运营和资源利用。
jtti
2023/08/11
4060
腾讯资深专家解读超大规模云网络中如何实现网络的可编程性、弹性和可靠性
笔者认为云网络中最核心的两点是:高性能与大规模。关于高性能网络的研究目前已经很多,在大规模网络方面早期 Google 云网络 Andromeda 提出了 Hoverboard 的解决方案。
通信行业搬砖工
2024/06/13
2760
腾讯资深专家解读超大规模云网络中如何实现网络的可编程性、弹性和可靠性
国产数据库:大数据时代必备,金仓单机扩集群的高效部署与优化技巧
传统的单机数据库架构在处理大规模数据、高并发访问和高可用性能要求时,存在明显的局限性。企业在数字化转型过程中,对于数据处理的需求日益增长,对数据库性能和高可用的需求更为迫切。因此单机向集群的转变是应对业务增长和技术挑战的自然选择,单机扩展成集群后,不仅能增强系统的处理能力、稳定性和可用性,还能提高资源的利用效率和整体业务的灵活性。
xcLeigh
2025/04/18
1390
国产数据库:大数据时代必备,金仓单机扩集群的高效部署与优化技巧
云数据中心U位资产管理的九大功能
U位资产管理是一种广泛应用于数据中心机柜和服务器资产的精细化管理方案,帮助包括云租赁用户实现人工作业模式向自动化运维管理模式的转型升级,节省了包括云数据中心长期运维的成本,提高了投资回报率。
数码人Digitalor
2019/11/19
1.2K0
中国民生银行:智能运维引领数据中心数字化转型
今天我演讲的题目是《智能运维引领数据中心数字化转型》,跟大家分享民生银行在智能运维领域的探索和实践。
肉眼品世界
2021/03/11
1.4K0
零停机、零损失:高可用架构的企业级最佳实践
在数字经济浪潮中,数据资产已成为企业生存发展的核心命脉。从个人身份信息、金融交易记录到商业机密文档,每比特数据都需要构筑多维度安全防线。面对日益复杂的网络攻击、系统故障及自然灾害威胁,构建具备弹性恢复能力的数据基础设施,已成为保障业务连续性的关键命题。
Michel_Rolle
2024/12/30
1.8K0
钢铁电商行业方案:钢铁工业企业智能远程运维系统解决方案
智能远程运维系统(RMS)可使钢铁工业生产线的设备运行状态信息及故障信息一目了然,通过信息报警推送,能迅速找到解决问题的方法,实现故障的快速、准确处理,降低设备故障时间,提高生产效率,减少工业现场人员维护量,缓解目前维护人员日益减少的状况,提高维护人员的可流动性。
数商云
2020/05/15
1.2K0
钢铁电商行业方案:钢铁工业企业智能远程运维系统解决方案
GLSB是什么?带你深入了解GLSB核心功能
伴随互联网的快速发展,大型企业等组织单位通过建设多数据中心,以提升用户体验。然而想要在多个数据中心实现流量的智能管理,提高网站的可靠性和可用性,则需要全局服务器负载均衡技术——GLSB的助力。GLSB是什么?它又有哪些核心功能?在文中你能找到答案。
用户10720949
2024/06/19
2570
相关推荐
服务发现对比:Zookeeper vs etcd vs Consul
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档