中移信息平台能力中心数据库团队成员,主要负责 MySQL、TiDB、Redis、clickhouse 等开源数据库的维护工作。
很早就计划做一个系统的巡检项目,我所说的这个巡检和咱们通常意义上理解的巡检完全不一样。这个巡检是面向业务同学的,简而言之,目标就是让业务同学看得懂的巡检。
首先看 CPU 内存、硬盘 io 的消耗程度,其中重点是硬盘使用率,要做好准备,避免厂家期间业务写入增长,磁盘占满。
首先看 CPU内存、硬盘io的消耗程度,其中重点是硬盘使用率,要为长假做好准备,避免单位在过年期间业务写入增长,磁盘占满。
对于数据中心,运维工作的重要性不言而喻,在数据中心生命周期中运维管理是历时时间最长的一个阶段。数据中心运维的工作主要是对数据中心各项管理对象进行 系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称,具体包括对机房环境基础设施部分的维护,系统与数据维护,管理工具的使用,人员的 管理等方面。投资巨大的数据中心,为了能够尽快得到收益,就需要在运维的工作上多下工夫,切勿进入“一流设备、二流设计、三流运维”的不良运营之中,高品 质数据中心运维的工作至关重要。那么如何才能提升数据中心的运维水平,本文提
如果对MySQL做一些巡检,那么巡检工作该怎么做,当然我们可以想到内核参数,系统配置,数据库参数配置等。这些巡检工作其实对于业务同学来说,难以体现这样的关联,或者说得直白一些,业务同学会认为这是DBA应该做的事情。
爱可生 DBA 团队成员,负责公司 DMP 产品的运维和客户 MySQL 问题的处理。擅长数据库故障处理。对数据库技术和 python 有着浓厚的兴趣。
今天对接完成了SQL自动化上线的一个功能,其实心里还是有点小激动,终于可以很肯定说,数据库方向开始提供的是数据服务,而不是传统意义的工单了。
上次分享了Linux的信息收集脚本,有小伙伴说实际环境中还有不少Windows的机器,今天给大家分享个Windows服务器信息收集脚本以及使用方法,详见下面具体信息。
巡检工作是保障系统平稳有效运行必不可少的一个环节,目的是能及时发现系统中存在的隐患。本文介绍了美团MySQL数据库巡检系统的框架和巡检内容,希望能够帮助大家了解什么是数据库巡检,美团的巡检系统架构是如何设计的,以及巡检系统是如何保障MySQL服务稳定运行的。
能源电力系统已逐步发展为分布范围广、设备种类多、外部环境复杂的大系统,比起纸质巡检表,以及需要另外购买硬件的巡检方式,用二维码来做巡检,成本更低,操作也非常方便:
当然,查看当前的磁盘和内存使用情况df -h,free -m,是否使用numa和swap,或是否频繁交互信息等。当然,还有其他的监控项目,这里就不一一赘述了。 除此之外,还需要关注日志类信息,例如:
工业安全先驱H.W.海因里希(Herbert William Heinrich)在1930年代提出的关于工作场所事故和非致命伤害之间关系的理论。海因里希在其著作中提出,大约有88%的事故是由人的不安全行为引起的,10%是由不安全的机械或物理条件引起的,而余下的2%是不可避免的“Acts of God”。
我们所在的效能团队,对这个需求最原始的来源是在一次“小项目”的评审中,增长的业务同学提出来的,目的在于保障前端页面稳定性的同时减少大量测试人力的回归成本。页面稳定性提升,之前迭代遇见过一些C端的线上问题,比如页面白屏、页面报错等不同类型的问题,严重影响了用户体验,需要针对这一专项进行优化,提高用户体验。回归投入成本大,H5页面巡检在用户稳定性提升上具有较大意义,在每个迭代大概有近十万个页面需要巡检(比如双旦、情人节等大促活动期间则更多)。
这一年,蓝鲸平台从自动化运维平台,重新定义为研发运营一体化平台,实现了CI、CD、CO的IT管理全生命周期的打通。
数据库的日常巡检可以说是保障系统稳定运行的基础,虽然不同的运维团队、不同的数据库,都会有适合自己的巡检体系,但是其中很多内容还是可以互相借鉴的。技术社群的这篇文章《Oracle数据库日常巡检指令》给我们提供了Oracle数据库日常巡检指令,虽然只针对Oracle,但是一些巡检的方向还是值得借鉴和学习的。
运维服务一个项目二十多台(或者多台)服务器,每天要做服务器的性能巡检工作是查看服务器的CPU、内存、磁盘空间是否在正常值范围内。像这样每天或者每个固定时间段都做相同的重复工作,为了简化重复的工作,我写了基于liunx服务器的自动巡检脚本,在crontab中设定一个固定时间进行自动执行即可,以减少人工重复劳动的工作。
又到周末了,思前想后不知道写点什么,那就从以前经历的一个线上缺陷说起,聊一下软件质量保障的巡检技术。
NB-IoT这个英文名字,相信大家都不陌生,但它具体能做哪些事情呢?可能大家会有些许疑惑。今天,就让我们来举几个NB-IoT在实际生活中的应用例子吧。
最近在做一个工业巡检的项目,主要涉及的内容是指针型表计的读取。本系列文章主要介绍实现表计读取的全流程开发(立个FLAG,想想真是肝...留下了不争气的眼泪),其中主要使用的工具为百度开发的PaddleX和Visual studio 2019。
运维,一般指的是互联网/IT运维,本质上是对网络、服务器、服务/应用的生命周期各个阶段的运营与维护,巡检也是在运营维护这些对象中的一部分工作,是企业重要的常规运维手段,可以有效发现系统潜在的风险,保障业务运行稳定性。
主机巡检脚本:OSWatcher.sh Oracle巡检脚本:ORAWatcher.sh
在新基建、数字化、智能化的建设浪潮下,随着大数据、人工智能、云计算等新兴技术的深入应用,IT运维管理成为时下IT界的热门话题之一。IT运维市场需求爆发,但当前只有极少数企业具备好用、完善的运维系统,大多数传统企业及中小企业需要专业且高效的IT运维体系和系统支持。
随着工业自动化和智能化的不断推进,越来越多的企业开始采用智能设备来提高生产效率和质量。然而,随之而来的是设备管理的复杂性和挑战性的增加。为了解决这一问题,易点易动设备管理系统应运而生,该系统可以帮助钢铁厂实现智能设备巡检,提高设备管理的效率和质量。
重剑轻出,大巧不工。本案例中的“天幕安全巡检”小工具依托云开发CloudBase+小程序可视化而打造,旨在改善 toB 售前打单过程中常见的繁琐流程问题,包括面向客户的长时多轮产品 PPT 演示、现场搭建 POC 环境作产品测试等。基于腾讯自研 PaaS 层强大安全算力算法能力,该工具以简驭繁,最终以轻量、便捷“随身小工具”的形式呈现给使用者,帮助加速客户对产品认知体验效率。
最近在做一个工业巡检的项目,主要涉及的内容是指针型表计的读取。本系列文章主要介绍实现表计读取的全流程开发。其中主要使用的工具为飞桨全流程开发工具 PaddleX 和 Visual Studio 2019。
传统的点检维护、检查等记录多为纸质版,使用“二维码+微信小程序”可实现表单记录电子化,现场记录反馈实现“扫、填、发”,节约办公纸张。
2021年8月某游戏行业大客户新上线一款游戏业务,配置CLB时未开启健康检查功。游戏开服后,游戏登录出现异常报错。
中国移动通信集团北京有限公司(下称北京移动)成立于1999年,隶属于中国移动通信集团公司,秉承“正德厚生,臻于至善”的企业核心价值观,紧密围绕“做世界一流企业,成为移动信息专家”的战略定位,以卓越品质锻造一流信息服务,用创新精神努力实现从优秀向卓越的新跨越,着力推动“移动改变生活”。
庚子新春,一场突其而来的疫情打乱了中国经济秩序。但经济终要复苏,此时,线上会议服务成为企业远程工作的重要协同工具。
过去十年,千行百业的智能化升级如火如荼,若要找一个头戴光环的明星,非电力行业莫属。
人员定位技术在智慧工厂的应用正逐渐受到重视,人员定位技术不仅是一种管理手段,更是提高工厂整体生产效率和保障员工生命安全的重要工具。为了让大家更深入地了解人员定位技术在智慧工厂的应用,接下来为大家分享智慧工厂人员定位系统解决方案。
初期阶段IT基础设施通常处在小规模状态。几台至几十台机器的规模,足以满足业务需求。很多公司都不一定配有专门的运维人员或者部门,业务开发人员完成自己业务工作的同时,也一并完成所负责管理相关业务的设备。随着云时代到来了,IT基础设施迅速发展成几百上千服务器。更多的业务系统上线,业务人员也无暇再顾及运维工作。此时,运维人员开始专业化,独立成部门。各类孤岛式的运维管理工具上线,提升运维效率。
Linux系统需要定期巡检,以检查服务器软硬件使用情况,相当于对人的体检,确保可以及时发现问题、解决问题,降低损失,常用的巡检命令如下:
做云安全运营也有一年多时间了,对云上安全建设和运营有一点粗浅的经验,希望可以抛砖引玉,借此文章能有机会和大佬们交流 安全运营,安全建设方向的经验。
目前,超维科技2.0代产品的销量已经达到了两位数,并与国家电网信产集团、南方电网等签署了合同。
系统巡检是对于服务巡检的第一站,所以在这里我们要做好第一班岗,如果系统巡检稀里糊涂,那么后续的数据库服务巡检效果也会大打折扣。
开启动态分区裁剪:自动在Join时对两边表的数据根据条件进行查询过滤,将过滤后的结果再进行join
近年来随着机器人技术的普及,越来越多的机器人巡检被选择用来替代人工巡检。传统人工巡检存在巡检效率低,作业风险高等运营成本问题,而巡检机器人在提升巡检效率同时,可保障巡检人员人身安全,因此在商超,化工,能源,园区等场景被广泛关注。
项目经过层层测试,最终上线了,此时我们很多时候需要保证线上是OK的。如果线上哪个服务出了问题,带来的后果是可想而知的。那么做线上巡检就成了我们很多测试,或者运维考虑的了,我们巡检不是为了去发现bug,更多的时候是保证服务是OK的,是可以访问的,比如我们Tomcat下的一个站点,很少有首页挂了,其他页面是OK的情况,因此我们巡检的目的是验证服务是否OK,有时也关注下响应时间。在讯飞开放平台上有很多第三方的webapi服务提供给用户使用,服务的可用性、授权和计量的准确性等都需要得到很好的保障,服务不可用,用户会第一时间反馈,但授权和计量出错,很难被及时发现,所以定时服务巡检就很有必要。接下来我们就以具体的实例来讲解下服务巡检的流程。
车间工厂等货物人员密集场所,对消防安全的要求很高。消防设备管理自然是生产制造型企业的核心之一。
近年来随着机器人技术的普及,越来越多的机器人巡检被选择用来替代人工巡检。传统人工巡检存在巡检效率低,作业风险高等运营成本问题,而巡检机器人在提升巡检效率同时,可保障巡检人员人身安全,因此在商超,化工,能源,园区等场景被广泛关注。 优图依赖图像匹配技术与弱监督训练算法,结合丙晟科技的机器人通用调度平台和真机智能的青翼蝠mini无人巡控机器人,共同打造了一套针对巡检机器人的技术解决方案,并成功在商超场景落地使用。 01 巡检机器人应用场景 巡检机器人作为人工巡检的取代方案,具有巡检效率高,作业风
****@@@@@能源站的自控、监控系统采用以计算机为核心的全厂集中管理系统,对能源站的监视、控制和管理,包括站控仪表和自动化系统等。已建成工业数据管控一体化系统平台及地理信息系统,使用户可以通过工业控制系统,对生产运行数据及业务数据进行分析。同时,站控系统中的能源站上位监控系统和地理信息系统一起接入能源站外换热子站和计量表实现热网监控。
19年有多长?如果你问我,我会这样回答你: 19年,就是从3.7元到逼近400元的股价,(敲黑板,2014年股价突破500元时曾一拆五) 以及从一台老式的服务器到现在如蛛网密布于全球的腾讯数据中心。 ” 今天,腾讯数据中心也有一份礼物想送给19岁的自己。 duang!duang!duang! 那就是我们精心准备已久的数据中心运营利器——”电子巡检”。 为什么我们要做电子巡检? 一.传统的巡检依赖纸质单据:1.不环保。2.抽取数据分析不易。3.生成图文形式的直观报告更不易。 二.传统的巡检依赖人的责
本次课程的内容是由百度AI开发平台部高级研发工程师林克,带来EasyData助力智能云秤一站式数据管理的课程,同时会为我们演示智能云秤水果采集、训练及识别的操作,我们欢迎林克老师。
EasyDSS视频直播点播平台可提供一站式的流媒体服务,能实现视频流媒体的上传、转码、存储、录像、推拉流、直播、点播等功能,支持多屏播放,可兼容Windows、Android、iOS、Mac等操作系统,还能支持CDN转推,具备较强的可拓展性与灵活性。
在运维中需要对主机业务进行周期巡检,为减少人工巡检频率,降低业务停机风险,利用 shell 脚本对 Linux 系统服务运行状态进行主动巡检,异常服务通过钉钉机器人进行告警消息推送。
继上两篇巡检相关脚本后,有小伙伴问小编有没有网络设备相关的巡检脚本或工具,今天小编给大家分享个群友给的巡检工具。
| 导语 疫情来势凶猛,腾讯课堂“停课不停学”专项为千万学子保驾护航。面对一个月内课堂流量的暴涨,监控体系如何在有限的时间内快速发现潜在问题并高效定位,进而保证服务稳定?本文对课堂的监控实践做一个总结,并且对未来监控体系提出一些思考。文章如有错误,欢迎指正~
领取专属 10元无门槛券
手把手带您无忧上云