本人所在项目组主要负责一款Android平台产品的开发,因为用户量比较大,正式版本发布后,每天Crash次数的上报量都在几十万量级,即便是内测版,每天Crash次数的上报量也在两三千次。面对如此庞大的上报量,能否快速准确的定位问题直接关系到Crash的解决率,我们项目组在这方面做了比较多的尝试,现在在这里给大家分享一下比较有效的一些做法,也欢迎大家一起来探讨和分享。 1 利用Bugly平台的工具自动还原堆栈 刚接入Bugly的时候,看着大量混淆后的java堆栈,着实让人头大。每次定位问题都要到处找mappi
欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络与服务器最接地气的干货分享,还有一大波互动交流板块和有奖活动正在筹备当中,需要您的热情参与哦,敬请期待! 注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利; 注2:本文图片部分来至互联网,如涉及相关版权问题,请联系v_huanjian@tencent.com 前言: 互联网已经日益进入到人们的日常生活中,像支付、打
从2020年疫情爆发以来,全国上下均处在疫情防控常态化期间,“健康码”已经成为各地大量人员流动场所进出的重要凭证。
分布式体系下,传统银行系统交易一般需访问多个服务完成业务处理,单服务出现问题可能会引起整个交易失败,全链路环境问题排查人工跟踪分析成本高,如何运用人工智能等新技术智能分类环境问题并精准实现问题的快速定位、快速修复,是研发效能提升的一个重要课题。
导语 腾讯云云监控于近日发布了两款产品:应用性能观测(APM)、前端性能监控(RUM),帮助用户解决调用链追踪问题,减少 MTTR(平均修复时间),以及帮助提升用户在 Web、小程序端的使用体验。 APM 集成微服务团队丰富的业务场景沉淀以及云监控打磨多年的高性能数据处理中台,云监控 - 应用性能观测平台(APM)正式开放测试。如果您的团队还在苦于日益复杂的后台服务架构、日渐增长的故障排查时间,我们诚邀您试用云监控 APM ,开启一体化、自动化的后台服务监控体验。 点击文末"阅读原文" 立即申请体验APM
线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉“坑”里了,这个“坑”就是线上故障!线上故障的处理过程可以形象地表达为:“踩坑”、“跳坑”、“填坑”、“避坑”。
腾讯云智能网关流控助力企业实现网络精细化管控,提升业务稳定性。通过IP-网关粒度的“监”与“控”,实现精确的网关故障排查和管控能力,降低网络故障时间。同时,可实时查询、TOP N排名功能,分析来源IP及其关键指标,快速定位异常流量,提升网络性能和稳定性。
大家好,我是 JavaPub。日志是我们定位问题的得力助手,也是我们团队间协作沟通(甩锅)、明确责任归属(撕B)的利器。没有日志的程序运行起来就如同脱缰的野🐎。打印日志非常重要。今天我们来聊聊日志打印的 N 个好建议~
平时在软件开发的过程中,首先是要保证功能可以正常运行,满足业务需求,除此之外,还需要考虑代码在异常的时候怎么处理,让程序能够健壮地运行。正确合理地处理异常可以减少程序的 Bug、保证代码质量,当然也不是一件很容易的事。
研发工程师日常的工作除了开发实现新需求之外,排查定位问题也是重要的组成部分。如果在发生线上故障的时能够快速定位线上bug并且修复bug,不仅是研发工程师技术能力的重要体现,同时也可以帮助线上及时止血避免平台故障进一步蔓延,从而导致影响用户体验或者产生不可挽回的资损。但是实际上很多研发工程师由于工作经验还不充足,导致经常在遇到问题的时候不知所措,不知道该如何分析排查定位问题。因此本文主要聚焦日常工作中经常遇到的异常场景,梳理了问题排查定位的思路大图,这样大家在实际项目中如果遇到类似的异常场景,可以按照思路大图进行问题排查定位解决,相信大家掌握了故障定位的分析套路之后就可以做到遇到问题时临危不乱。
前言 腾讯云市场规模近几年飞速增长,承载的业务类型覆盖电商、直播、金融、互联网等越来越多的内外部用户核心业务;基础网络作为腾讯云极为重要的基础设施,采用高冗余设计很好的支撑了业务的高速发展,部分架构甚至达到128台设备冗余,像设备宕机,链路中断,协议收敛等常规故障,业务基本无感知。由于部分业务对网络故障非常灵敏,网络设备转发轻微丢包可能会有影响,针对此类场景,我们需要具备全面而准确的快速自愈能力,能又快又准地定位并隔离异常网络设备,以尽可能快的速度恢复业务。 传统商业网络设备本身具备一定的故障自愈能力
背景 美团外卖业务在互联网行业是非常独特的,不仅流程复杂——从用户下单、商家接单到配送员接单、交付,而且压力和流量在午、晚高峰时段非常集中。同时,外卖业务的增长非常迅猛,自2013年11月上线到最近峰
好消息,DBbrain发布全链路分析版,为金融客户量身定制,满足金融行业在数据库层面提出的实时计算、数据分析、高效运维等严苛要求。高阶功能支持正反向SQL解析、集群SQL聚合分析、业务SQL聚合统计分析、集群事务分析、全链路性能视图,透视全链路各环节,帮助客户第一时间发现、定位、分析、解决问题,为金融行业客户保驾护航,提供更高可靠的服务保障。 金融客户之痛 实时分析难:一般金融场景,客户的数据库通常数据体量巨大,数据分析、运算实时性保证等,难度增加。 业务定位难:用户为了溯源交易或业务,通常会有前缀编码的
美团服务运维团队从事前防御、事中处理、事后运营多个阶段探索AIOps在事件管理领域的应用。本文介绍了在各个运维领域中AIOps的赋能场景,详细阐述了每一个运维场景的业务价值以及算法的具体的落地效果。
FindAll工具是专为网络安全蓝队设计的应急响应工具,旨在帮助团队成员有效地应对和分析网络安全威胁。工具集成了先进的信息搜集和自动化分析功能,以提高安全事件应对的效率和准确性。
代码Debug调试是研发工程师日常工作中必不可少的重要组成部分。进行代码Debug调试的目的无非就两个,一个是自我检查代码逻辑是否有问题,便于自己将Bug消灭在测试介入之前;另一个是进行线上问题排查定位,找到实际在跑业务的过程中出现的Bug。但是无论是哪个目的,高效率的进行代码Debug调试必定会提高我们码代码的效率以及定位问题解决问题的效率,从而实现代码白盒化自我观测。本文主要罗列了10个常用的Debug技巧,可以让我们定位代码问题事半功倍。
Tech 导读 在系统开发和运维过程中,异常堆栈信息是解决线上问题的关键之一。然而,有时候异常堆栈信息可能会消失,带来严重的麻烦。本文将介绍消失的异常堆栈的原因,即JIT编译器对异常进行的优化,以及如何快速定位问题。此外,还将讨论异常优化机制Fast Throw的使用条件和性能影响。通过一个实际案例,将详细阐述如何通过追溯日志和分析系统指标来定位问题的根因。无论是在大促期间还是平时运维中,追本溯源并解决问题的能力都是非常关键的。阅读本文,您将对异常堆栈消失问题有更深入的了解,并掌握解决问题的方法和技巧。
前言 你有没有曾经调式某段代码时,总觉得世界上有鬼? 你有没有曾经调式API时,总感觉是调用第三方的接口问题或者文档说明不对? 你有没有曾经调式一个bug时,总感觉问题的来源是使用的方式不对? 你有没有在安装一个服务时,总感觉文档或者环境不相符合? 相信过程和方法,切勿被结果误导............ 概述 调式代码很多时候类似于查案一样,只是结果的重要程度不同,警察查案为的是人民安稳,而我们调式则是为了系统的安稳。既然这样我们就不要冤枉任何一段代码和程序,以免他们受到不合理的惩罚。 以下的一些过程方法
在Java开发中,异常处理是保证程序稳定性和可靠性的关键。Google的Guava库提供了一个强大的工具类Throwables,用于简化和增强异常处理。本篇博客将探讨Throwables类的核心功能及其在实战中的应用。
app组件加载异常监控 软件异常监控常常直接关联到软件本身的质量,完备的异常监控体系常常能够快速定位到软件运行中发生的问题,并能帮助我们快速定位异常的源头,提升软件质量。在服务端的话,可以通过tomcat日志查看定位,在native开发的app中我们也可以通过各种异常监控工具去监控,但是对于混合开发的app来说,通过上面的方式就不那么容易做到了。通常混合开发的app通过webview本地加载html、js、css,如果发生错误,应该怎样去捕获并传送给服务器呢?前端错误日志传送给服务器很简单,在异常发生
TSW是面向WEB前端开发者,以提升问题定位效率为初衷,提供云抓包、全息日志和异常发现的Node.js基础设施。
孟庆江、田忠毅,中金财富证券股份有限公司信息技术部,本文选自《交易技术前沿》总第四十期文章(2020年9月)。
记录日志是任何应用程序中至关重要的一部分,它可以帮助开发人员了解应用程序的行为、调试问题以及监控系统的健康状态。
美团外卖业务在互联网行业是非常独特的,不仅流程复杂——从用户下单、商家接单到配送员接单、交付,而且压力和流量在午、晚高峰时段非常集中。同时,外卖业务的增长非常迅猛,自2013年11月上线到最近峰值突破1600万,还不到4年。在这种情况下,一旦出现事故,单纯靠人工排查解决问题,存在较多的局限性。本文将详细解析问题发现、根因分析、问题解决等自动化运维体系的建设历程与相关设计原则。
TSW 经过腾讯六年的迭代与沉淀, Tencent Server Web (以下简称TSW) 这一公司级运维组件将正式开源并发布到Github。TSW是面向WEB前端开发者,以提升问题定位效率为初衷,提供云抓包、全息日志和异常发现的Node.js基础设施。TSW每天为百亿次请求提供稳定服务,广泛应用在QQ空间、微视、微云、QQ音乐、全民K歌、腾讯云等三十多个重要业务当中。 特性简介 云抓包:TSW 支持用户维度的抓包 对于染色的用户 对请求生命周期内的抓包进行收集 提供抓包查看、下载等功能 抓包格式支
XX公司早在几年前就部署过一套企业网管系统,随着业务的增长,该网管系统由于监控功能单一并且稳定性差,不能满足用户的监控需求。为了减少监控盲点,节省成本。公司急需一套通用性和可扩展性强的综合运维管理系统对整个单位IT数据网络和主机应用的进行统一监管,加快其故障定位和处理速度,尽量减少故障对业务的影响,扭转目前的被动维护局面。
工欲善其事必先利其器,说的就是工匠要想更加高效的做事情,就得先将工具变得锋利。那么对于程序员来说同样也是如此,如果要想每天早点下班,就必须借助于一些开发工具来提高自己的工作效率,今天慕枫就给大家总结一些工作中常用到的工具。
4月8日15点23分,腾讯云团队收到告警信息,云API服务处于异常状态;随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。
https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA
在 Java 开发中,我们经常会遇到各种异常情况。当我们在线上环境发现 Java 报错提示异常信息,但是找不到问题时,打印异常的调用栈信息可以帮助我们迅速定位错误。本文将详细介绍如何使用 e.printStackTrace() 方法来打印 Java 异常的调用栈,并通过一个实例代码来加深理解。
如何巧妙地用二叉树遍历算法来升级和增强监控软件的稳定性呢?二叉树遍历算法有前序遍历、中序遍历还有后序遍历,就像一把利器,能在不同场景下大展身手,让监控软件的性能和稳定性都提上一个档次。
PS:健壮的系统异常的判断尤为重要,不要认为开发完成就完成了,其实在开发过程中,就像装修一样『前门』很光鲜,『后门』也得控制好。万一别人没从『前门』进来,要求让带个钥匙进门,结果拿个斧子进『后门』呢?
当针对业务搭建好指标体系后,作为产品/运营同学,通常会选择1-2个「北极星指标」来度量产品的健康度。而作为数据同学,我们需要协助产品来监控日常指标波动,如果发现指标波动不符合预期,则需要对其进行查询。
为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。
本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度,本文通过图文的方式进行说明,希望即使是不懂技术的同学也能理解。
前言 前面介绍了 Android混淆代码错误堆栈还原,相信大家已经知道如何通过Retrace在本地进行混淆代码还原了,上一篇提到,如果崩溃异常很多,你总不能一个一个去手动还原吧,不觉得这样做很没有效率么,有没有想过如果能实现线上监控崩溃并且能上传mapping文件进行快速还原,而不需要自己手动去做这样的一件事?没错,Bugly就是这样的一个平台,可以很方便快捷实现你这样的需求,能帮助到你提高开发效率,更加敏捷。本篇文章就跟大家分享如何使用Bugly进行错误堆栈还原。 集成Bugly 关于如何集成Bugly
最近组内来了个新人实习生,正好我前几天也给他讲了我的排查问题步骤,今天来分享下我的经验。
作者:高铭谦,腾讯云高级工程师 背景 当我们在笔记本电脑、平板电脑和智能手机上运行应用程序时,很容易看到设备是否已开机,Wi-Fi 网络连接是否在线。当磁盘空间不足发出警告时,我们也可以从屏幕中获得通知。当我们能直接与设备交互的时候,我们能很清楚知道设备的运行情况。 假如当你作为一个技术客服,解决来自客户投诉的终端问题的时候,你无法看到具体错误,也无法与设备直接交互,这样会极大增加检测和诊断问题的难度。因此,当运行基于云的服务时,我们会面临一个类似的难题:如何监控这些远程服务,如何了解我们的客户是否满意?
鄞劭涵,携程框架架构研发部高级软件工程师,爱丁堡大学高性能计算专业硕士。目前主要从事应用监控系统以及消息队列相关基础框架的研发。
携程火车票包含1000+的业务指标,人工监测指标的异常情况耗时费力,而由于业务差异,基于规则和简单统计学的检测方案只能覆盖到单个指标或者单类指标,并且不能随着新业务上线或者功能变动灵活动态的调整相应的规则,并不适用于大量不同业务线的指标。我们希望使用AI算法来代替人工,对指标进行全自动的监控,旨在发现指标的异常和导致异常的潜在原因。
总第507篇 2022年 第024篇 DAS(Database Autonomy Service, 数据库自治服务)面向研发和DBA,是一款为用户提供数据库性能分析、故障诊断、安全管理等功能的数据库自治服务。DAS利用大数据手段、机器学习、专家经验,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定和高效运行。本文主要讲述DAS的历史背景、演进策略、重要功能及实现思路,希望能对从事相关开发的同学有所帮助或者启发。 1 现状与问题 1.1 规模增长与运维能力发展之间的不平衡问题
如今很多人认为devops将彻底取代传统运维,我不这么认为,在我看来devops只是很大程度上的代替了传统运维的手工操作,运维人员只需写好自动化运维脚本,利用自动化工具(zabbix,elk,ansible等)就可以实现自动发布和监控,省去了很多人力。因此Devops能否顺利落地,运维平台的建设将会很重要。本文主要简单介绍下我司的三大运维平台。
故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。
导语 | 腾讯云网络作为云的基础设施,其质量和稳定性直接影响了云的运营质量和用户口碑。同时客户对基础设施依赖度高,故障容忍度低,云网络产品迭代更新快,决定了我们需要对云网络质量有更高的要求。本文是腾讯云专家工程师陈政产老师在云+社区技术沙龙深圳站的分享整理,为大家详细介绍腾讯云网络运维平台的建设。
今天我演讲的题目是《智能运维引领数据中心数字化转型》,跟大家分享民生银行在智能运维领域的探索和实践。
在电脑监控软件中,聚类算法可以应用于多个方面,包括异常检测、威胁情报分析和用户行为分析等。聚类算法的原理是将一组数据对象划分为不同的组别,使得组内的对象相似度高,而组间的相似度较低。
前言 众所周知,Bug是线上应用极力规避但又无法避免的。对于致命的Bug,我们可以通过Crash日志进行分析;对于无法复现的Bug、特定操作步骤引起的Bug、某些版本/系统才出现的Bug,每个开发者都有自己的一套分析、定位、解决的方法。 本文以工作中遇到的几个iOS 11 Bug为例,介绍快速定位、分析、解决Bug的经验。 正文 iOS 11裁剪图片偏移问题 功能背景: 用户从本地相册选择图片,然后裁剪一个正方形区域,最后生成用户头像。 Bug描述: iOS 11的iPhone X,选择本地图片,然后
领取专属 10元无门槛券
手把手带您无忧上云