Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >根据用户id获取对应的组织管理范围 - qps限频断层

根据用户id获取对应的组织管理范围 - qps限频断层

原创
作者头像
徐攀棒
发布于 2021-11-28 07:15:15
发布于 2021-11-28 07:15:15
1.2K0
举报

【问题背景】

压测执行:并发数600,脚本含有依赖包,执行持续时间300秒

压测结果:qps曲线出现严重下坠以及断层,

【排障过程】

10:50发了该问题及时升级,同时拉起排障会议解决

11:00拉相关人员上会:架构、运维、研发、涉及ISV团队协助进行性能排障会议

11:02联系运维或者有后台服务监控相关权限同学

11:05需要运维或者相关权限同学协助查看整个服务链路监控:DNS ->DDOS ->WAF ->公网CLD ->政务认证服务->数据库各个服务监控指标是否存在瓶颈

11:07 监控排查发现资源负载瓶颈不在链路上面,反馈给产研同学,主要 看带宽

11:09 王,带宽限制500兆掉200多兆,理论瓶颈出现在这里

11:10 带宽曲线图与QPS曲线图一致

11:14 切换数据库-3监控图,1/2数据库是没负载的,数据库压力都打在3号数据库

11:20 进入日志oppi接口,查看报错信息

11:24 m,数据库报错看不出来问题,组件有原因导致日报错,不影响

11:25 疑问掉坑是否导致数据库代码占满

11:26 m,数据库没看到其他详细日志,重压下,打印日志

11:27 加完日志,下午继续排障

11:30查看根据时间查询表数据是有索引

11:40 麒琳,tce的mgdb,产研这边的适配工作,tce平台没了,需要确认,目前没办法,要资源没资源,要啥没啥,等后面有资源有了在查,跟产品反馈下以后把mgdb移到tce上面去

11:42 我们这边资源有限 ,目前只能调优

11:45 确认外网 压测带宽有限制

11:50 许,升级服务,完成后再复压

14:22 产研同学给出建议做出重新打包发版再进行复测

14:30 临时突破口

复测结果与第一次压测结果季度相似,当时立马反馈给产研同学,是否存在配置host问题,因为该问题在8号解决过一次,由于配置hosts里面没有这三个域名解析

14:33 问题已定位

【起因回顾】

11月8日该接口排障已通过strace工具进行日志对账,排查发现pod没有pod没有写host

研发同学,通过strace命令跟了下服务,看了下他耗时的那段时间是在干什么,发现他在请求dns,然后比对了下异常和正常机器里面的dns,发现dns没有houst

在后面的交接中腾讯产研同学没有跟道一产研同学说明改host的问题,导致道一同学在部署的时候没注意到

【复测结果】

产研收到反馈后,重新对houst配置后重启,复测4次结果比较理想

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
可观测迁移实战:从自建困境到高效运维的华丽转身
在教育行业数字化转型进程中,某教育头部客户的运维团队面临自建 SkyWalking 监控系统的严峻挑战。随着业务规模扩张,系统运维复杂度呈指数级增长,运维团队每月 20% 以上工作时间都消耗在监控系统自身故障处理且微服务架构下的故障排查效率极低 ,针对这一现状,该团队通过技术架构升级与优化,与腾讯云可观测平台产研团队共创,实现了从传统自建监控体系向腾讯云可观测平台的迁移,同时也为教育行业监控系统转型提供实践范例。
腾讯云可观测平台
2025/06/11
610
可观测迁移实战:从自建困境到高效运维的华丽转身
Locust + python + influxdb + grafana 展示性能压测QPS图表
在使用locust压测的时候,如果使用web则可以查看到QPS压测过程的曲线图。而如果使用no web模式启动,则只有一些打印的日志可以查看。
Devops海洋的渔夫
2019/11/25
2.1K0
悬镜安全扫描导致4核cpu负载使用率400%
1、某KA项目通过压测执行结果qps24较低,曲线有毛刺,95ht延迟5秒左右较慢,同时看到后端服务4核cpu已打满400%,反馈给研发同学排查问题
徐攀棒
2021/11/28
1.3K6
互联网架构,如何进行容量设计?
一,需求缘起 互联网公司,这样的场景是否似曾相识: 场景一:pm要做一个很大的运营活动,技术老大杀过来,问了两个问题: (1)机器能抗住么? (2)如果扛不住,需要加多少台机器? 场景二:系统设计阶段,技术老大杀过来,又问了两个问题: (1)数据库需要分库么? (2)如果需要分库,需要分几个库? 技术上来说,这些都是系统容量预估的问题,容量设计是架构师必备的技能之一。常见的容量评估包括数据量、并发量、带宽、CPU/MEM/DISK等,今天分享的内容,就以【并发量】为例,看看如何回答好这两个问题。 二,容量评
架构师之路
2018/03/01
2K0
互联网架构,如何进行容量设计?
全链路压测如何排障调优 — 先导篇
我们团队保障了很多KA项目(第七次人口普查项目,广交会等)的后台稳定性,覆盖14亿中国人口,后台接口的并发量达到11万的QPS。在生产环境进行全链路压测的过程中,我们踩了很多坑,但也因此积累了丰富的实战经验,希望分享出来,让大家少走弯路。
杨珂
2020/12/08
2.1K2
全链路压测如何排障调优 — 先导篇
饿了么监控系统 EMonitor 与美团点评 CAT 的对比
饿了么监控系统 EMonitor :是一款服务于饿了么所有技术部门的一站式监控系统,覆盖了系统监控、容器监控、网络监控、中间件监控、业务监控、接入层监控以及前端监控的数据存储与查询。每日处理总数据量近 PB ,每日写入指标数据量百T,每日指标查询量几千万,配置图表个数上万,看板个数上千。
heidsoft
2019/11/11
1.7K0
饿了么监控系统 EMonitor 与美团点评 CAT 的对比
稳定且高性价比的大模型存储:携程 10PB 级 JuiceFS 工程实践
在过去两年多的时间里,随着 AI 大模型的快速发展,JuiceFS 在携程内部得到了越来越多 AI 用户的关注。目前,携程通过 JuiceFS 管理着 10PB 数据规模,为 AI 训练等多个场景提供存储服务。
深度学习与Python
2025/03/12
1900
稳定且高性价比的大模型存储:携程 10PB 级 JuiceFS 工程实践
压力测试之常见容量故障案例与避坑指南
云组件检查项案例全球加速ECDN限频: 压测时需绕过ECDN20200506,项目压测经过ecdn,导致触发了ecdn单个ip的限频安全产品WAF限频: 确保WAF套餐配置达到容量要求20200602,某项目中使用的WAF的QPS套餐最大10w,导致压测QPS达到10w后出现限频限频: 确保压测机IP被添加到安全打击白名单20200605,某项目压测时未将压测机IP未加入白名单,导致触发WAF限频,接口QPS曲线不平稳连接方式:确保回源连接方式为长连接,短连接需解释20220510,系统中WAF的回源方式设
katelyn
2022/09/14
1.1K0
开发更高可用、高质量的服务的一些建议
产品要求的功能都都开发完了,但这并不是终结。怎么样做才能让我们的服务具有更好的质量。 笔者结合自己的遇到的问题和工作中的经验,并以提问的方式,给读者一点点建议
sunsky
2020/08/20
6960
客户案例|某车企建设统一监控平台实践
导语:文章主要介绍腾讯云 Prometheus 在监控出行行业的突出优势与解决方案,为客户运维团队降低了很多成本。
腾讯云可观测平台
2025/02/11
3120
客户案例|某车企建设统一监控平台实践
Strace 解决性能问题案例一则
前面一篇文章说了因为公司同事在解决一个故障(性能问题)时利用到strace,在学习strace工具的时候也查看《性能之巅》第十三章中,大神解决性能问题的思路和方法。本文将我遇到的故障的解决过程记录下来,前车之鉴。
用户1278550
2018/08/09
5670
一篇文章告诉你怎么做性能测试
突然有一天,领导说:“小王,今天把996福报系统压一下,下班前把压测报告发我邮箱。”
测试小兵
2020/05/26
2.5K0
7天DAU超亿级,《羊了个羊》技术架构升级实战
导语 | 在短短的7天内,羊了个羊小游戏的DAU突破了1亿。然而,其最初技术架构仅支撑5000QPS并发,无论技术、人力、资源以及服务都难以应对。用户涌入、数据飙升,给原有的技术架构、运维体系、以及安全防范等技术体系都带来了巨大的挑战。如何通过架构优化,让一款小程序游戏可以在短时间内实现对上亿DAU的支持?本文将从技术角度解读这背后的技术实践历程,希望为正在从事小游戏开发的技术同行带来一些参考。 目录 1 背景 2 架构全面升级 3 插件集成     3.1 一崩再崩,自动扩容为何不灵?     3.2
腾讯云开发者
2023/01/18
1K0
7天DAU超亿级,《羊了个羊》技术架构升级实战
公网CLB带宽限频导致qps上不去
在不同并发下压测后,发现性能数据始终在 20qps ~ 30qps 区间,无法进一步上升
彭泽亚
2021/12/29
1.3K0
运维老司机:问题排查经验总结
排查出问题并找到根本原因加以解决,个人认为是一件很成就感的事情。曾经有人问过我:“你是怎么想到问题出现在xxx的?又是怎么确认根本原因是xxx的?”,我只能轻描淡写的回答:“靠经验”,然后感觉这个逼装得还可以。其实这里说的“靠经验”是很模糊的,一直以来大家可能都觉得排查问题要靠经验,但是又说不出具体通过什么样的经验排查出了问题,最后让排查问题逐渐变成了一门玄学。其实问题排查工作往往遵循一些通用且不成文的实践规则,并不是一门所谓的玄说,结合自身经历、总结,希望能为大家的实际工作带来助益。
腾讯蓝鲸助手
2022/04/06
1.6K3
社区精华文章目录
文章架构如下:(待补充)1. 压测理论关于压力测试不得不说的二三事并发线程数、QPS与平均耗时的关系2. 压测服务部署2.1 Coding平台Jmeter-Suite压测工具部署文档Coding平台项目构建指南2.2 TCPS压测平台TCPS压测平台接入私有集群教程2.3 Jmeter分布式部署Jmeter分布式压测环境搭建(windows & linux)3. 压测脚本编写3.1 安装篇(待补充)3.2 使用篇3.2.1 基础入门篇Jmeter压测工具入门篇Mac OS下Jmeter的入门操作3.2.2
cailynyu
2021/12/06
2.5K0
修正版 | QPS过万,Redis大量连接超时怎么解决?
之前负责的一个服务总是在高峰时刻和压测发生大量的redis连接超时的异常redis.clients.jedis.exceptions.JedisConnectionException,根据原有的业务规则,首先会从数据库查询,然后缓存到redis中,超时时间设置为3分钟。
艾小仙
2021/04/13
9980
修正版 | QPS过万,Redis大量连接超时怎么解决?
阿里技术分享:深度揭秘阿里数据库技术方案的10年变迁史
本文原题“阿里数据库十年变迁,那些你不知道的二三事”,来自阿里巴巴官方技术公号的分享。
JackJiang
2018/11/06
4.6K1
微博热点事件背后数据库运维的“功守道”
【导语】 微博拥有超过3.76亿月活用户,是当前社会热点事件传播的主要平台。而热点事件往往具有不可预测性和突发性,较短时间内可能带来流量的翻倍增长,甚至更大。如何快速应对突发流量的冲击,确保线上服务的稳定性,对于提供全微博数据托管的服务部门数据库团队来说既是机遇又是挑战。本文尝试从一线DBA的视角管窥微博热点事件背后的数据库运维应对之道。 背景&挑战 背景 正是图1这条微博动态,让一个平常的国庆假期变得不同寻常,微博刚一发出就引爆网络,它将明星CP动态推向了舆论的高潮,并霸占微博热搜榜好几天,也正是因为这
CSDN技术头条
2018/02/06
1.7K0
微博热点事件背后数据库运维的“功守道”
Redis:你永远不知道告警和下班,谁先到来
前段时间,笔者所负责的一个模块出现了访问 Redis 耗时较长的问题,在这个问题排查的过程中,对 Redis 的问题排查思路和压测、调优进行了一些系统的学习和沉淀,在这里分享给大家。
腾讯云开发者
2023/09/29
4990
Redis:你永远不知道告警和下班,谁先到来
推荐阅读
相关推荐
可观测迁移实战:从自建困境到高效运维的华丽转身
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档