Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >悬镜安全扫描导致4核cpu负载使用率400%

悬镜安全扫描导致4核cpu负载使用率400%

原创
作者头像
徐攀棒
发布于 2021-11-28 07:05:57
发布于 2021-11-28 07:05:57
1.3K6
举报

【背景】

1、某KA项目通过压测执行结果qps24较低,曲线有毛刺,95ht延迟5秒左右较慢,同时看到后端服务4核cpu已打满400%,反馈给研发同学排查问题

接口:/pwp/rest/portalgxhaction/getAllAppData 12获取应用列表

吞吐量(req/s):24.34

报错率:0%

95%分位的平均响应时间(ms):5330

并发量:100

持续时间:300s

数据分析:qps24较低,曲线有毛刺,4核cpu已打满400%

测试时间:2021-11-24 21:20:18 到2021-11-24 21:25:45

【排障过程】

17:00 研发一开始以为是sql慢查询导致cpu资源占用打满,TDsql全局搜索慢qls也没监测到

17:09 陆斌 ,讨论用火焰图打印排查

17:14 陆斌 ,看下web服务器,cpu压测力也就20%左右

17:15 赵步旺,那个cpu20%左右是那个数组机的,不是我们这个pod的,所以那个没有关联,应该看下我们pod下面的cpu

17:17 徐攀棒,那个cpu为什么那么卡?cpu资源负载达到400%左右

17:18 仇洋菁内存消耗6G多,内存还没满

17:21 赵步旺把火焰图打印出

17:35 赵步旺同步业务类的存在应用服务里面

17:37 压测打印耗时

17:38 压测看打印结果

17:40 压测耗时正常,耗时都没有超过1s

17:41 陈虎兵,这个是框架的安全防护,拦截较多

17:42 当时这块没有做过性能压测分析

17:44 发现安全模块两个过滤器get filter,一个是下面的那个post filter,等于做了两次安全监测。占用cpu使用率70%左右

17:45 陈虎兵明确了现在的性能个瓶颈就是在我们的这个web节点的cpu上面,这个已经明确

17:46 单容器单里面的四核cpu已经全部用完

17:47 调日程,把日程的过滤器调整一下配置

17:49 查看两个过滤器代码

17:51 authorized方法代码更改重写一下这个方法,认证通过返回值为空就可以

18:28 厂商悬镜安全整改完成,需要项目组申请。申请时长6小时

【复测结果】

整改完成后的压测结果

接口:/pwp/rest/portalgxhaction/getAllAppData 获取应用列表

吞吐量(req/s):172

报错率:0%

95%分位的平均响应时间(ms):1690

并发量:150

持续时间:300s

数据分析:

测试时间:2021-11-24 23:47:18 到2021-11-24 23:52:45

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
6 条评论
热度
最新
个人理解排障流程及解决总结:1.压测发现该接口qps达不到要求,4核cpu使用率达到400%2.抛出该接口给开发拉会进行排障3.开发人员首先觉得是数据库慢查询导致cpu使用率达到400%4.开发人员使用TDsql全局搜索是否有慢查询语句,发现查不到慢查询相关语句,排除该可能性5.接着开发建议使用火焰图查询web服务器cpu使用情况,并打印6讨论发现该cpu是属于容器的cpu,并不是在该集群下该pod接口下的cpu7.(个人理解:该接口可能是属于业务类,存在悬镜应用服务里面),开发打印出火焰图后在去监控java代码8.使用arthas监控java进程代码,并打印日志
个人理解排障流程及解决总结:1.压测发现该接口qps达不到要求,4核cpu使用率达到400%2.抛出该接口给开发拉会进行排障3.开发人员首先觉得是数据库慢查询导致cpu使用率达到400%4.开发人员使用TDsql全局搜索是否有慢查询语句,发现查不到慢查询相关语句,排除该可能性5.接着开发建议使用火焰图查询web服务器cpu使用情况,并打印6讨论发现该cpu是属于容器的cpu,并不是在该集群下该pod接口下的cpu7.(个人理解:该接口可能是属于业务类,存在悬镜应用服务里面),开发打印出火焰图后在去监控java代码8.使用arthas监控java进程代码,并打印日志
回复回复点赞举报
9.通过日志排查出 authorize方法 有问题?(个人理解是通过arthas工具监测出该方法有问题)10.开发人员去代码层中找到该身份认证方法11.发现安全模块有2个过滤器(一个是get方法,一个是post方法),经过过滤后,此时cpu使用率70%12.查看过滤器代码,重写authorized方法,认证通过后返回空值即可(修改前后代码不太理解)13.悬镜服务厂商修改代码完成,提交后6小时申请修改成功,并发版代码14.重新压测后,该接口qps,cpu达到指标
9.通过日志排查出 authorize方法 有问题?(个人理解是通过arthas工具监测出该方法有问题)10.开发人员去代码层中找到该身份认证方法11.发现安全模块有2个过滤器(一个是get方法,一个是post方法),经过过滤后,此时cpu使用率70%12.查看过滤器代码,重写authorized方法,认证通过后返回空值即可(修改前后代码不太理解)13.悬镜服务厂商修改代码完成,提交后6小时申请修改成功,并发版代码14.重新压测后,该接口qps,cpu达到指标
回复回复点赞举报
1.吞吐量曲线有毛刺代表了什么,什么情况才会出现毛刺?2.火焰图是什么,主要拿来排查什么?3.排障的过程是怎么样的,应该从哪部分开始排起?4.pod指的是什么,怎么查看我们这个pod的cpu压测力?
1.吞吐量曲线有毛刺代表了什么,什么情况才会出现毛刺?2.火焰图是什么,主要拿来排查什么?3.排障的过程是怎么样的,应该从哪部分开始排起?4.pod指的是什么,怎么查看我们这个pod的cpu压测力?
回复回复点赞举报
1.对于提到过的数组机的CPU,其中数组机是指什么?2.其中有提到“同步业务类的存在应用服务里面”,是什么意思?3.是如何根据火焰图定位到是安全防护的问题的?4.安全模块的两个过滤器中,get filter不是只过滤get请求,post filter只过滤post请求吗?为什么是做了两次安全检测?
1.对于提到过的数组机的CPU,其中数组机是指什么?2.其中有提到“同步业务类的存在应用服务里面”,是什么意思?3.是如何根据火焰图定位到是安全防护的问题的?4.安全模块的两个过滤器中,get filter不是只过滤get请求,post filter只过滤post请求吗?为什么是做了两次安全检测?
回复回复点赞举报
把可能导致性能瓶颈的原因列举出来,就可逐步排除问题。WEB后端服务器:1、 sql数据库框架问题 2、 服务器容量问题3、 服务器组件问题。压力机:CPU、内存、网络带宽等。疑惑:1、 提到,通过TDsql全局搜索可以找到查询慢的sql。那这个过程是怎么实现的?2、 通过日志可以直接看到接口每次发送请求时间和处理请求时间,这种方法可以直观看出sql处理时间,为什么没有和TDsql监控步骤一起做?3、 有安全拦截情况下,接口请求不是会出现因请求时间过长而报错、丢包等情况吗?为什么显示数据中,没有出现接口报错的情况?4、 对专业属于不是很理解,比如:数组机(宿主机?)、web节点。
把可能导致性能瓶颈的原因列举出来,就可逐步排除问题。WEB后端服务器:1、 sql数据库框架问题 2、 服务器容量问题3、 服务器组件问题。压力机:CPU、内存、网络带宽等。疑惑:1、 提到,通过TDsql全局搜索可以找到查询慢的sql。那这个过程是怎么实现的?2、 通过日志可以直接看到接口每次发送请求时间和处理请求时间,这种方法可以直观看出sql处理时间,为什么没有和TDsql监控步骤一起做?3、 有安全拦截情况下,接口请求不是会出现因请求时间过长而报错、丢包等情况吗?为什么显示数据中,没有出现接口报错的情况?4、 对专业属于不是很理解,比如:数组机(宿主机?)、web节点。
11点赞举报
宿主机应该指的是docker容器
宿主机应该指的是docker容器
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
从一个抓包打满cpu问题理解内核soft lockup
一台线上服务器在流量大时挂掉,怀疑是大流量时的抓包行为导致,向我们给出了线索是当时可能存在的三个抓包组件:A、B、C,当三个组件全部开启时,将流量打上去进行压测,很快会报soft lockup错误,且机器会非常卡。但是只开启一个组件压测,则并没有相关soft lockup报错。看现象似乎不符合逻辑?本文记录该问题的分析过程。
johnazhang
2022/08/09
2.8K1
jmeter5.x与beanShell[测试专题]
协议是⼀种约定,规定好⼀种信息的格式,如果发送⽅按照这种请求格式发送信息,那么接 收端就要按照这样的格式解析数据,这就是协议
高大北
2022/10/28
1.5K0
jmeter5.x与beanShell[测试专题]
容器因内存频繁OOM而引发的内核“血案”
客户上云过程中将原有在数据中心自建kubernetes集群迁移至腾讯云TKE集群,迁移过程中发现其中有一个容器沙箱环境频繁出现node节点夯死现象,目前已经出现5-6次,亟需定位原因。出现异常时节点无法登陆且需要手动重启才能恢复,"罪犯"逃离,异常后节点状态置为NotReady,无状态化pods会自动驱逐至其他节点,有状态化StatefullSets部署的pods无法驱逐成功。
HappyLau谈云计算
2021/09/22
6.8K2
Clickhouse入门学习、单机、集群安装部署
参考:https://blog.csdn.net/qq_37933018/article/details/108019566
别先生
2021/03/02
2.5K0
Clickhouse入门学习、单机、集群安装部署
系统性能测试工具
描述:Stress/Stress-NG是Linux下两个常用的系统级压力测试工具,stress命令简单易用stress-ng是stress的升级版,支持数百个参数定制各种压CPU、内存、IO、网络的姿势。在系统过载的场景下,应用服务可能会出现意想不到的错误或异常,在测试负载均衡和熔断降级时非常有用。 这里只列举了几个常用的命令,详细使用参考”stress-ng –help”或”man stress-ng”。另外这些"烤机"命令来测试服务器性能也是不错的。
全栈工程师修炼指南
2022/09/29
4.4K0
系统性能测试工具
FFmpeg从入门到精通-云享读书会
FFmpeg是一款开源软件,用于生成处理多媒体数据的各类库和程序。FFmpeg可以转码、处理视频和图片(调整视频、图片大小,去噪等)、打包、传输及播放视频。作为最受欢迎的视频和图像处理软件,它被来自各行各业的不同公司所广泛使用。
DS小龙哥
2022/10/06
5.5K0
FFmpeg从入门到精通-云享读书会
Flink
  1)Flink 是标准的实时处理引擎,基于事件驱动。而 Spark Streaming 是微批(Micro-Batch)的模型;
挽风
2023/10/17
6220
Flink
万字长文讲透Go程序性能优化
性能分析和优化是所有软件开发人员必备的技能,也是后台大佬们口中津津乐道的话题。 Golang 作为一门“现代化”的语言,原生就包含了强大的性能分析工具 ppr
腾讯云开发者
2024/11/05
1K0
万字长文讲透Go程序性能优化
Linux命令小记
黄色表示设备文件(硬盘、键盘、鼠标、网卡、CPU 硬件设备都是以文件的形式存在的)
程序员Leo
2023/08/07
1K0
Python 深度学习架构实用指南:第一、二部分
在本节中,您将概述使用 Python 进行的深度学习,还将了解深度前馈网络,玻尔兹曼机和自编码器的架构。 我们还将练习基于 DFN 的示例以及玻尔兹曼机和自编码器的应用,以及基于带 Python 的 DL 框架/库的具体示例及其基准。
ApacheCN_飞龙
2023/04/24
8420
大数据面试题整理
JAVA相关 1-1)List 与set 的区别? 老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复。 1-2)数据库的三大范式? 原子性、一致性、唯一性 1-3)java 的io类的图解 1-4)对象与引用对象的区别 对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的直接new的也可以是直接其他的赋值的,那么背new或者背其他赋值的我们叫做是引用对象,最大的区别于 1-5)谈谈你对反射机制的理解及其
闵开慧
2018/04/02
6.6K1
mysql主从同步(3)-percona-toolkit工具(数据一致性监测、延迟监控)使用梳理
在mysql工作中接触最多的就是mysql replication,mysql在复制方面还是会有一些常规问题,比如主库宕机或者从库宕机有可能会导致复制中断,通常需要进行人为修复,或者很多时候需要把一个从库提升为主库,但对从库和主库的数据一致性不能保证一样。这种情况下就需要使用percona-toolkit工具的pt-table-checksum组件来检查主从数据的一致性;如果发现不一致的数据,可以通过pt-table-sync修复;还可以通过pt-heartbeat监控主从复制延迟。当然如果数据量小,sla
洗尽了浮华
2018/01/22
3.3K0
关于智能网卡, 您需要了解的相关的技术-DPU相关技术
网络接口卡 (NIC) 是现代高速网络系统的基本组件,支持 100 Gbps 的速度并提高可编程性。 将计算从服务器的 CPU 卸载到 NIC 可以释放大量服务器的 CPU 资源,这使得 NIC 成为提供有竞争力的云服务的关键。 因此,了解将网络应用程序卸载到 NIC 的性能优势和局限性至关重要。 在本文中,我们测量了来自全球最大 NIC 供应商之一的四种不同 NIC 的性能,支持 100 Gbps 和 200 Gbps。 我们表明,虽然当今的 NIC 可以轻松支持数百千兆位的吞吐量,但频繁执行 NIC 数据包分类器的更新操作(如网络地址转换器 (NAT) 和负载均衡器对每个传入连接所做的操作)会导致吞吐量急剧下降,高达 70 Gbps 或完全拒绝服务。 我们的结论是,所有测试的 NIC 都无法支持需要跟踪大量频繁到达的传入连接的高速网络应用程序。 此外,我们还展示了各种反直觉的性能假象,包括使用多个表对数据包流进行分类的性能影响
晓兵
2024/02/11
5560
关于智能网卡, 您需要了解的相关的技术-DPU相关技术
精通 Python OpenCV4:第二部分
在本书的第二部分中,您将更深入地了解 OpenCV 库。 更具体地说,您将看到计算机视觉项目中所需的大多数常见图像处理技术。 此外,您还将看到如何创建和理解直方图,直方图是用于更好地理解图像内容的强大工具。 此外,您将在计算机视觉应用中看到所需的主要阈值处理技术,这是图像分割的关键部分。 此外,您还将看到如何处理轮廓,轮廓用于形状分析以及对象检测和识别。 最后,您将学习如何构建第一个增强现实应用。
ApacheCN_飞龙
2023/04/27
2.4K0
Object Detection in 20 Years: A Survey
目标检测作为计算机视觉中最基本、最具挑战性的问题之一,近年来受到了广泛的关注。它在过去二十年的发展可以说是计算机视觉历史的缩影。如果我们把今天的物体检测看作是深度学习力量下的一种技术美学,那么让时光倒流20年,我们将见证冷兵器时代的智慧。本文从目标检测技术发展的角度,对近四分之一世纪(20世纪90年代至2019年)的400余篇论文进行了广泛的回顾。本文涵盖了许多主题,包括历史上的里程碑检测器、检测数据集、度量、检测系统的基本构件、加速技术以及最新的检测方法。本文还综述了行人检测、人脸检测、文本检测等重要的检测应用,并对其面临的挑战以及近年来的技术进步进行了深入分析。
狼啸风云
2019/09/25
3.1K0
Object Detection in 20 Years: A Survey
100 个 Go 错误以及如何避免:9~12
在前一章中,我们讨论了并发的基础。现在是时候看看 Go 开发人员在使用并发原语时所犯的实际错误了。
ApacheCN_飞龙
2023/10/13
9780
100 个 Go 错误以及如何避免:9~12
Python OpenCV3 计算机视觉秘籍:1~5
计算机视觉算法消耗并产生数据-它们通常将图像作为输入并生成输入的特征,例如轮廓,感兴趣的点或区域,对象的边界框或其他图像。 因此,处理图形信息的输入和输出是任何计算机视觉算法的重要组成部分。 这不仅意味着要读取和保存图像,还要显示有关其功能的其他信息。
ApacheCN_飞龙
2023/04/27
2K0
一文深入理解 Kubernetes
作者:xixie,腾讯 IEG 后台开发工程师 这篇文章,你要翻很久,建议收藏。 Kubernetes,简称 K8s,是用 8 代替 8 个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用。k8s 作为学习云原生的入门技术,熟练运用 k8s 就相当于打开了云原生的大门。本文通过笔者阅读书籍整理完成,希望能帮助想学习云原生、以及正在学习云原生的童鞋快速掌握核心要点。学习 k8s 和大家学习 linux 差不多,看似复杂,但掌握了日常熟悉的指令和运行机理就能愉快
腾讯技术工程官方号
2021/06/25
4K1
2020年度20多款主流数据库重大更新及技术要点回顾
为方便阅读、重点呈现,本文对各板块内容进行了精简,需阅读完整版可点击文末【阅读原文】或登录云盘下载:https://pan.baidu.com/s/1h8plZz-amxxOMMWTL2eicQ(提取码:dwqg)
jeanron100
2021/02/25
1.8K0
2020年度20多款主流数据库重大更新及技术要点回顾
精通 TensorFlow 2.x 计算机视觉:第二部分
在本节中,您将基于在上一节中学到的知识来执行复杂的计算机视觉任务,例如视觉搜索,对象检测和神经样式迁移。 您将巩固对神经网络的理解,并使用 TensorFlow 进行许多动手的编码练习。
ApacheCN_飞龙
2023/04/27
1.1K0
精通 TensorFlow 2.x 计算机视觉:第二部分
相关推荐
从一个抓包打满cpu问题理解内核soft lockup
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档