近期和大佬们核对任务规划,梳理新财年要做的事情,有非常重要的一项就是线上监控。对于线上监控,大家都最熟悉不过,凡是在生产环境上运行的系统,或多或少都会有监控,但是否有认真思考过:
作者:张加浪 腾讯云监控高级工程师 背景 十年一次的人口普查是涉及全国十几亿人的重大事情,每次人口普查都是对国人的一次梳理,国家和人民都十分重视。随着技术的不断创新,人口普查的普查方式也在不断升级,从人工加算盘到人工加老式计算机,再到卫星传感。 在第七次全国人口普查 (以下简称 “七人普”) 的到来之际,国家决定通过 “电子化方式普查登记,腾讯提供技术支持” 更快更准的普查方式,即实行云端普查登记。 七人普主要通过小程序方式进行制证、普查员注册、人口普查等,700 万的普查员,十几亿的普查对象,服务必
背景 随着 2015 年由谷歌牵头成立 CNCF (云原生计算基金会),云原生的概念逐步深入人心。云原生应用的三大特征:容器化封装,动态管理,面向微服务。 以一个典型的电商服务关键路径(登录 -> 浏览详情页 -> 下单)为例: 图中所有的服务和组件都运行在腾讯云上。 1. 下单关键路径上 3 个服务均为容器化服务,且通过微服务架构实现。 2. 服务均运行在 TKE (腾讯云容器服务) 上。 针对图中的云原生服务,CNCF (云原生计算基金会) 推荐的监控治理方案是可观测性建设。其三大支柱为:指标,
大家好,我是乐乐。前面我们详细介绍了Zabbix与乐维监控的架构与性能、Agent管理、自动发现、权限管理、对象管理、告警管理方面的对比分析,相信大家对二者的对比分析有了相对深入的了解,接下来我们将对二者的可视化功能进行对比分析。可视化是当代IT监控的一个创举,让IT监控很大程度摆脱枯燥烦杂的数据,使得监控过程变得更直观。
对业务来说,完备的应用健康性和数据指标的监控非常重要,通过采集准确的监控指标、配置合理的告警机制,我们能够提前或者尽早发现问题,并做出响应、解决问题,进而保证产品的稳定性,提升用户体验。
作者:何金胜&张加浪,腾讯云云监控高级工程师 前言 知名游戏公司云资源使用了腾讯云、AWS 和自研 IDC,业务覆盖了国内和海外。云上资源包括了计算资源服务器、存储类的包括 MySQL、Redis、S3 等、大数据处理(EMR)以及网络资源等。业务服务主要通过 Golang与 PHP 语言开发,服务使用微服务框架,由多个游戏工作室共同开发完成。如此大的业务,如何实现高可用的一体化监控并降低云原生 Prometheus 的监控成本呢? 客户现状和痛点 经内部规划后,该游戏公司决定基于自建的 Prometh
业务架构与安全架构的综合分析才是一个综合架构应该考虑的事情。那么如何做到鱼与熊掌兼得?
随着电力行业信息化建设的快速发展,尤其是随着云原生和分布式技术在电力信息化建设中的大范围推广和应用,电力行业云上业务系统变得更加复杂,业务系统内部节点和互相之间的健康关联影响也越来越动态多变,给资源管理、系统监控、运行维护工作带来了极大挑战。
本文主要介绍了在海量存储、海量业务的情况下,如何实现高可用的架构设计,并分享了在实现过程中遇到的挑战以及解决方案。包括使用分布式缓存、使用消息队列、集群管理、容量规划、异常流量清洗、业务监控、移动端支持等多个方面。
本文主要介绍了如何基于监控告警实现业务闭环,从四个大方面进行了展开:1)基于业务影响的监控告警,2)基于故障收敛的监控告警,3)基于运维流程的监控告警,4)基于质量度量的监控告警。在本文中,作者还介绍了在腾讯云平台上如何利用监控数据实现故障定位和故障恢复,以及如何通过自动化流程实现故障收敛和故障自愈。
这篇文章是写给想对目前的业务系统进行监控但是又不知道从何入手的小伙伴看的,又或者是对于现有监控机制的一个反思,具体为什么要做这件事情,可以参照一下下边这篇,结合着看看。
作者:张加浪,腾讯云云监控高级工程师 前言 某电商客户的网站加速 30% ,调用成功率上升3%,实现了分钟级定位故障...... 某银行实现端到端的全链路覆盖和性能量化,解决了多处性能短板...... 在云原生时代,且业务架构复杂、用户量庞大的场景下,他们怎么都能轻而易举地实现了? 方案背景 自研业务上云、业务服务云化,底层 IAAS、PAAS 等资源托管依赖,业务聚焦于业务逻辑实现。使用微服务框架开发服务进行敏捷开发,服务模块化运作。资源依赖托管、业务微服务化这些使得服务研发、运营变得更符合云化,
0x00 前言 结丹篇是《你了解你的数据吗》第四篇,本篇主要聊的内容主要和数据质量监控有关,之前在《数据质量监控》专门分享过相关内容,那篇文章主要从一个宏观的整体来看待质量监控,内容包括架构、设计和实现多个方面,但是对于数据质量监控本身的内容并没有一个比较体系化的梳理,本篇就来做这件事。 0x01 数据质量监控 我们将要分享的数据质量监控,不是单指数据异常,而是对数据各个角度的描述。 同比和环比 为了后面更好描述我们的想法,这里需要先引入两个概念: 同比:“同比 ”是同期之比的意思,一般指本年某月的累计指标
本文介绍了互联网监控平台在腾讯社交网络事业群中的应用,通过监控平台实现实时监控、流量分析、异常事件预警等功能,并应用机器学习技术,实现自动化运营闭环,提高运维效率,保障业务质量。同时,该平台还支持多种接入方式,满足业务不同场景的监控需求,可广泛应用于互联网、移动互联网、工业互联网等领域。
导言 很高兴参与DevOps时代社区的拆书联盟第一季活动,有幸能与几位DevOps大牛一起解读《DevOps Handbook》一书,这本书作者牛,内容也很牛,就连著名的培训机构把这本书作为DevOp
许俊是极光的第一位严格意义上的大数据工程师,目前是大数据平台的负责人,见证了极光大数据平台从0到1,迅速发展到现在规模的历程。他给开发者带来的是大数据架构下对于业务监控的几点思考。通过类比地球地质演进
在上一节我们完成了对mysql的监控,这一节我们来讲讲如何对redis进行监控,同样的,我们需要让监控指标更好的反映业务情况,由于我们生产上的服务是部署到云环境的,常见的redis监控指标,云服务商已经提供了,所以没必要重读对其造轮子了。
林晨曦,携程酒店研发部资深测试开发工程师,主要从事测试框架和平台的研发,现在负责监控系统与性能平台,热衷于研究技术提升测试工作效率。
前几天在CCTV播出的《新闻联播》——“众志成城保供应 企业在行动”,对腾讯在疫情期间向全国用户免费开放300人不限时的会议功能进行了报道:
在正式阅读本文之前,我们先思考一个问题-几乎每个IT公司都有一套自己的运维监控系统,每家公司的运维都在做监控系统,而似乎每家都在面临一个问题,监控系统不好用,不能解决实际的监控问题,有没有更好的监控系统呢?答案是有的,本文将为您揭晓谜底。
梁定安, 腾讯织云负责人,目前就职于腾讯社交网络运营部,开放运维联盟委员,腾讯云布道师,复旦大学客座讲师。 前言 运维自动化是我们所渴望获得的,但是我们在一味强调自动化能力时,却忽略了影响自动化落
快速发展的互联网业务往往存在一段“快,糙,猛”的阶段,业务的高速发展过程中大家的注意力都集中在了业务快速迭代,系统功能快速实现,而忽略了稳定性相关的问题。
额,我觉得我特别擅长从细节处思考,主要也是因为我接触到的事情确确实实都是特别具体的、需要立刻去解决的、特别个性化、特别的贴合业务的事情。
如何接手一个新业务的运维工作?有些东西我们还是要把话说在前面,以免前期不明确造成后期工作的混乱。
本文主要阐述监控系统的发展历程、监控系统的原理,以及监控系统的项目实践,目的是让大家全面了解监控系统。
在数字化转型的浪潮中,我们面临着将“线下业务线上化”及实现“业务快速创新迭代”的迫切需求,这也进而要求支撑业务的应用系统更加敏捷、可扩展性更高。
经过几年的平台建设,vivo监控平台产品矩阵日趋完善,在vivo终端庞大的用户群体下,承载业务运行的服务数量众多,监控服务体系是业务可用性保障的重要一环,监控产品全场景覆盖生产环境各个环节。从事前发现,事中告警、定位、恢复,事后复盘总结,监控服务平台都提供了丰富的工具包。从以前的水平拆分,按场景建设,到后来的垂直划分,整合统一,降低平台割裂感。同时从可观测性、AIOps、云原生等方向,监控平台也进行了建设实践。未来vivo监控平台将会向着全场景、一站式、全链路、智能化方向不断探索前行。
总第250篇 2018年 第42篇 背景 美团外卖从2013年11月开始起步,经过数年的高速发展,一直在不断地刷新着记录。2018年5月19日,日订单量峰值突破2000万单,已经成为全球规模最大的外卖平台。业务的快速发展对系统稳定性提出了更高的要求,如何为线上用户提供高稳定的服务体验,保障全链路业务和系统高可用运行,不仅需要后端服务支持,更需要在端上提供全面的技术保障。而相对服务端而言,客户端运行环境千差万别,不可控因素多,面对突发问题应急能力差。因此,构建客户端的高可用建设体系,保障服务稳定高可用,不仅
本文将向大家分享SNG监控十年来变革背后的驱动因素和立体化的监控方案,最后给大家展示最新的智能监控的应用场景。
前言 变更是网络运营中最常见的工作之一。过去,想要在变更过程中监控网络质量变化,变更人员需要自行准备样本进行质量探测,同时逐个打开变更设备的流量视图以及关联区域的业务探测曲线,并在实施过程中实时关注这些页面。实施完成后,根据经验确认无异常,即结束变更。看起来行云流水又风平浪静的一次操作,往往在变更结束后却收到业务报障,此时才忽然发现变更存在异常,然后紧急回退来恢复业务,但从业务受到影响开始,到变更回退后业务恢复,影响时间已非常长,已经造成了严重网络故障,影响用户体验。如果能给变更加个“护身符
| 导语 疫情来势凶猛,腾讯课堂“停课不停学”专项为千万学子保驾护航。面对一个月内课堂流量的暴涨,监控体系如何在有限的时间内快速发现潜在问题并高效定位,进而保证服务稳定?本文对课堂的监控实践做一个总结,并且对未来监控体系提出一些思考。文章如有错误,欢迎指正~
原文:http://www.infoq.com/cn/news/2016/07/lianjia-architect-plantform
大家好,我是蓝胖子,关于性能分析的视频和文章我也大大小小出了有一二十篇了,算是已经有了一个系列,之前的代码已经上传到github.com/HobbyBear/performance-analyze,接下来这段时间我将在之前内容的基础上,结合自己在公司生产上构建监控系统的经验,详细的展示如何对线上服务进行监控,内容涉及到的指标设计,软件配置,监控方案等等你都可以拿来直接复刻到你的项目里,这是一套非常适合中小企业的监控体系。
所以说监控是运维这个职业的根本。尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要。
云计算是一种基于网络的计算模式,通过互联网将计算资源、存储资源和应用程序等提供给用户使用,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。在云计算数据中心场景下,传统业务服务器以虚拟服务器的形式运行在云数据中心中,在虚拟服务器上可以安装各种应用系统服务。虚拟机的出现一定程度上改变了传统信息系统架构,因此也为信息系统的安全防护带来了新的内容。
随着业务规模的不断扩大,面临着服务数量不断膨胀、线上环境日益复杂、服务依赖错综复杂等运维痛点,服务依赖自动梳理、拓扑自动生成、调用实时追踪、异常明细分析、调用来源追踪、实时容量规划、问题根因分析等基本的运维诉求及解决方案就尤其重要。
分布式系统的架构,业务开发,这些在良好的思路和设计文档规范之下,是相对来说好处理的,这里的相对是指比较分布式架构下生产环境的突然故障。
吴兆松 资深系统工程师,Zabbix监控系统“红宝书”作者,熟悉IT运维领域,对服务器运维、应用运维以及运维(DevOps)平台的构思、设计、开发等都具有十分丰富的经验,尤其擅长IT监控系统的运维和开发,是国内最早一批使用和研究Zabbix的用户,为几十个大型企业构建过Zabbix监控平台体系。从业经历相当丰富,对运维、编程、产品都有深入的实践,被业内人士戏称为“监控专家”。
通过对现有Services页面和功能的重大改进和优化,业务服务监控提升到了一个新高度。业务服务监控功能(BSM)非常适合多组件服务场景,例如服务器群集、负载平衡器和其它具有冗余组件的服务。
Zabbix版本不断升级,以满足日益增长的用户需求,支持高可用HA,k8s、指标topN、机器学习、定制前端品牌logo等!
这篇是「分布式系统理论」系列的第22篇,也是最后一篇。我们来聊聊分布式系统中的最后一道保障——监控。
为了更好地支持交易业务的快速发展,马蜂窝支付中心从最初只支持基础支付和退款的「刀耕火种」阶段,经历了架构调整的「刮骨疗伤」阶段,完成了到实现综合产品平台形态的「沉淀蓄力」阶段的演进。
当我们有了能可靠地对大数据进行采集、处理和存储的能力后,我们可以将这些能力用于哪些实际业务场景,并让数据产生价值呢?
服务监控在微服务改造过程中的重要性不言而喻,没有强大的监控能力,改造成微服务架构后,就无法掌控各个不同服务的情况,在遇到调用失败时,如果不能快速发现系统的问题,对于业务来说就是一场灾难。
概要 为什么要做监控 线上发布了服务,怎么知道它一切正常,比如发布5台服务器,如何直观了解是否有请求进来,访问一切正常。 当年有一次将线上的库配置到了Beta,这么低级的错误,排错花了一个通宵,十几个人。 某个核心服务挂了,导致大量报错,如何确定到底是哪里出了问题。 SOA带来的问题,调用XX服务出问题,很慢,是否可以衡量? 由于业务系统数量大,每天都会产生大量的系统日志和业务日志,单流式业务的一台服务器产生的日志达400M 想直接查看内容打开可能几分钟,而且内容之多根本无法查看,给开发和运维带来诸多不便,
告警处理无记录,和企业运维流程脱节,怎样形成知识沉淀?-----所谓的知识库,线下整理不及时,增加工作负担。
领取专属 10元无门槛券
手把手带您无忧上云