Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >对MySQL报警的一次分析处理小结

对MySQL报警的一次分析处理小结

作者头像
jeanron100
发布于 2021-04-01 22:44:49
发布于 2021-04-01 22:44:49
53300
代码可运行
举报
运行总次数:0
代码可运行

这是学习笔记的第 2334篇文章

最近有一个服务出现了报警,已经让我到了忍无可忍的地步,报警信息如下:

Metric:mysql.innodb_row_lock_waits Tags:port=4306,service=xxxx diff(#1): 996>900

大概的意思是有一个数据库监控指标innodb_row_lock_waits 目前超出了阈值900

但是尴尬的是,每次报警后去环境中查看,得到的信息都很有限,慢日志,错误日志里面都没有充分的信息可以分析,一来二去之后,我开始静下心来分析这个问题的原因。

首先这个报警信息的时间点貌似是有些规律的,我拿着最近几天的报警时间做了比对,发现还是比较有规律的,那么在系统层面有哪些任务可能会触发呢,我查找比对了相关的任务配置,发现有一个定时任务每1分钟会执行一次,但是到了这里疑问就来了,如果每1分钟执行1次,为什么在特定的时间会产生差异较大的处理结果?当然这个现象的解释是个起始。

其实要证明这一点还是蛮容易的,今天我就采取了守株待兔的模式,我在临近报警的时间前后打开了通用日志,从日志输出来看,操作的频率还是相对有限的。

很快得到了规律性的报警,于是我开始抓取相关的通用日志记录,比如11:18分,我们可以采用如下的模式得到相关的日志,首先得到一个临时的通用日志文件,把各种DML和执行操作都网罗进来。

cat general.log|grep -E "insert|delete|update|select|exec" > general_tmp.log

我们以11:18分为例,可以在前后1两分钟做比对,结果如下:

# less general_tmp.log |grep "11:18"|wc -l

400

# less general_tmp.log |grep "11:17"|wc -l

666

# less general_tmp.log |grep "11:16"|wc -l

15

发现在报警的那1分钟前后,数量是能够对得上的。

这个表的数据量有200多万,表结构如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE TABLE `task_queue` (  `AccID` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '自增ID',  `TaskStepID` bigint(20) DEFAULT NULL COMMENT '任务步骤ID task_step_conf',  `QOrder` int(11) DEFAULT NULL COMMENT '队列排序   task_step_confi.Step_ID',  `QState` tinyint(4) DEFAULT '1' COMMENT '队列状态  1:待执行 2:执行中 3:执行成功 4:执行失败',  `QExcCount` int(11) DEFAULT '1' COMMENT '执行次数',  `CrtTime` datetime DEFAULT NULL COMMENT '创建时间',  `ModTime` datetime DEFAULT NULL COMMENT '修改时间',  PRIMARY KEY (`AccID`),  KEY `idx_taskstepid` (`TaskStepID`),  KEY `idx_qstate` (`QState`)) ENGINE=InnoDB AUTO_INCREMENT=3398341 DEFAULT CHARSET=utf8

在日志中根据分析和比对,基本能够锁定SQL是在一类Update操作上面,SQL的执行计划如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>>explain update task_queue set QState=1,QExcCount=QExcCount+1,modtime=now() where QState=0 and taskstepid =411\G*************************** 1. row ***************************           id: 1  select_type: UPDATE        table: task_queue   partitions: NULL         type: index_mergepossible_keys: idx_taskstepid,idx_qstate          key: idx_qstate,idx_taskstepid      key_len: 2,9          ref: NULL         rows: 11     filtered: 100.00        Extra: Using intersect(idx_qstate,idx_taskstepid); Using where; Using temporary

这个执行结果中key_len是2,9,是和以往的ken_len计算法则不一样的。 其中Extra列已经给出了明确的提示,这是一个intersect处理,特别的是它是基于二级索引级别的处理,在优化器层面是有一个相关的参数index_merge_intersection。

我们知道在MySQL中主键是一等公民,而二级索引最后都会映射到主键层面处理,而索引级别的intersect其实有点我们的左右手,左手对应一些数据结果映射到一批主键id,右手对应一些数据结果映射到另外一批主键id,把两者的主键id值进行intersect交集计算,所以在当前的场景中,索引级别的intersect到底好不好呢?

在此我设想了3个对比场景进行分析,首先这是一个update语句,我们为了保证后续测试的可重复性,可以转换为一个select语句。

select * from task_queue where QState=0 and taskstepid =411;

所以我们的对比测试基于查询语句进行比对分析。

场景1:优化器保持默认index_merge_intersection开启,基于profile提取执行明细信息

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>explain select * from task_queue where QState=0 and taskstepid =411\G*************************** 1. row ***************************           id: 1  select_type: SIMPLE        table: task_queue   partitions: NULL         type: index_mergepossible_keys: idx_qstate,idx_taskstepid          key: idx_qstate,idx_taskstepid      key_len: 2,9          ref: NULL         rows: 11     filtered: 100.00        Extra: Using intersect(idx_qstate,idx_taskstepid); Using where1 row in set, 1 warning (0.00 sec)

profile信息为:

场景2:优化器关闭index_merge_intersection,基于profile进行对比

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>set session optimizer_switch='index_merge_intersection=off';
>explain select * from task_queue where QState=0 and taskstepid =411\G*************************** 1. row ***************************           id: 1  select_type: SIMPLE        table: task_queue   partitions: NULL         type: refpossible_keys: idx_qstate,idx_taskstepid          key: idx_qstate      key_len: 2          ref: const         rows: 1451     filtered: 0.82        Extra: Using where1 row in set, 1 warning (0.00 sec)

profile信息为:

场景3:重构索引,进行比对分析

根据业务逻辑,如果创建一个复合索引,是能够大大减少结果集的量级的,同时依然保留idx_qstate索引,使得一些业务依然能够正常使用。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>alter table task_queue drop key idx_taskstepid;>alter table task_queue add key `idx_taskstepid` (`TaskStepID`,QState);explain select * from task_queue where QState=0 and taskstepid =411\G*************************** 1. row ***************************           id: 1  select_type: SIMPLE        table: task_queue   partitions: NULL         type: refpossible_keys: idx_qstate,idx_taskstepid          key: idx_taskstepid      key_len: 11          ref: const,const         rows: 1     filtered: 100.00        Extra: NULL1 row in set, 1 warning (0.00 sec)

profile信息为:

可以明显看到通过索引重构,“Sending data”的部分少了两个数量级

所以接下里的事情就是进一步进行分析和验证,有理有据,等待的过程也不再彷徨,一天过去了,再没有收到1条报警,再次说明在工作中不要小看这些报警。

各大平台都可以找到我

  • 微信公众号:杨建荣的学习笔记
  • Github:@jeanron100
  • CSDN:@jeanron100
  • 知乎:@jeanron100
  • 头条号:@杨建荣的学习笔记
  • 网易号:@杨建荣的数据库笔记
  • 大鱼号:@杨建荣的数据库笔记
  • 腾讯云+社区:@杨建荣的学习笔记

近期热文:

我们为什么在MySQL中几乎不使用分区表

新年大吉 总结了如下的感想

《大江大河2》最触动我的一段经典对话

MySQL 8.0给开发方向带来的一些困扰

迁移到MySQL的业务架构演进实战

MySQL业务双活的初步设计方案

如何优化MySQL千万级大表,我写了6000字的解读

一道经典的MySQL面试题,答案出现三次反转

小白学MySQL要多久?我整理了10多个问题的答案

转载热文:

2020年度20多款主流数据库重大更新及技术要点回顾

工行“去O”数据库选型与分布式架构设计

MySQL 实战笔记 第01期:MySQL 角色管理

MGR用哪个版本?5.7 vs 8.0

SQLcl这个可爱的小工具,来了解一下呀~

CPU占用又爆了?MySQL到底在干什么

这个MySQL优化原理剖析,比照X光还清楚

自己动手写SQL执行引擎

最受欢迎的微服务框架概览

程序员,保住你的钱袋子!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 杨建荣的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MySQL中explain的结果​字段介绍
昨天说完了执行计划的前四个字段,今天说说后面几个字段吧。我们看看explain的基本语法和输出内容:
AsiaYe
2019/11/06
9.1K0
MySQL8索引篇:性能提升了100%!!
今天我们一起来聊聊MySQL 8.x版本中新增的三大索引。MySQL 8.x中新增了三种索引方式,这三种索引方式直接让MySQL原地起飞了,如下所示。
冰河
2022/06/15
3K0
技术分享 | 用好 MySQL 的 MRR 优化器
MySQL DBA,擅长 python 和 SQL,目前维护着 github 的两个开源项目:mysqltools 、dbmc 以及独立博客:https://www.sqlpy.com。
爱可生开源社区
2020/06/19
7510
你知道MySQL 8.0中的索引有哪些新特性吗?看这一篇就够了!!!
在之前MySQL的版本中,只能通过显式的方式删除索引,如果删除后发现索引删错了,又只能通过创建索引的方式将删除的索引添加回来,如果数据库中的数据量非常大,或者表比较大,这种操作的成本非常高。在MySQL 8.0中,只需要将这个索引先设置为隐藏索引,使查询优化器不再使用这个索引,但是,此时这个索引还是需要MySQL后台进行维护,当确认将这个索引设置为隐藏索引系统不会受到影响时,再将索引彻底删除。这就是软删除功能。
冰河
2020/10/29
1.3K0
你知道MySQL 8.0中的索引有哪些新特性吗?看这一篇就够了!!!
MySQL 8.0 新特性的一些典型应用场景
测试机器:本地虚拟机 测试表 sys_test,数据行 780w 测试实例1:8.0.30 测试实例2:5.7.20
DBA札记
2023/08/04
5310
MySQL 8.0 新特性的一些典型应用场景
一文看懂如何分析MySQL Explain(2/3)
⑨ range:如果使用索引获取某些范围区间的记录,那么就可能使用到range访问方法,比如:
程序员小强
2019/06/11
1.6K0
MySQL优化案例分享
临近十一,国庆放假的同时,往往会伴随着国庆期间业务要上相关的活动,那么今天就分享一个今年五一前夕(4月30日)上新活动中遇到的一个性能问题;
SEian.G
2021/10/12
8540
一文看懂如何分析MySQL Explain(1/3)
在网上经常看到一些写SQL优化经历的文章,看完文章发现懂的不用看,不懂的看不懂,大家都是都在讲调优经历,但是忽略了如何看懂执行计划,如何调优。本文不讲调优经历,只讲如何看懂执行计划及常用的调优原则,从而可以有针对性的提升我们查询语句的性能。
程序员小强
2019/06/11
1.5K0
技术分享 | MySQL 索引合并优化实践
在生产环境的数据库中,经常会看到有些 SQL 的 where 条件包含:普通索引等值 + 主键范围查询 + order by limit。明明走普通索引效率更高,但是选择走了索引合并,本文就对这种索引合并的情况研究一下。
爱可生开源社区
2024/09/14
3040
技术分享 | MySQL 索引合并优化实践
一次关于 Mysql 索引优化的思考
执行SQL-1,显示耗时 9.35sec。显然是不乐观的一个值,查看其执行计划(explain):
逆锋起笔
2021/04/07
3670
一次关于 Mysql 索引优化的思考
MySQL通过索引优化-这里可能有你不知道的索引优化细节(二)
用执行计划分别测试一下union all、in和or,发现union all分两步执行,而in和or只用了一步,效率高一点。
行百里er
2020/12/02
9540
MySQL通过索引优化-这里可能有你不知道的索引优化细节(二)
MySQL8.0之不可见索引
MySQL8.0引入了不可见索引(invisible index)和不可见列(invisible column),今天我们来说说这个特性。
AsiaYe
2021/06/09
6370
MySQL8.0之不可见索引
MySQL - 践行索引优化
key_len : 显示了mysql在索引里使用的字节数,通过这个值可以算出具体使用了索引中的哪些列。
小小工匠
2021/08/17
5750
MySQL8.0 优化器介绍(三)
为了让读者对join优化 有更深的了解,章节里的sql例子,留了一些思考和动手的问题。可能大家得到的答案会不同,但探索未知的过程,方式应该是一样的。
GreatSQL社区
2023/08/10
4740
MySQL8.0 优化器介绍(三)
MySQL - 使用trace工具来窥探MySQL是如何选择执行计划的
有的时候,明明某个字段有索引,那我们一般认为走索引好一些,结果mysql走了全表扫描 , 那怎么看mysql是怎么选择的呢? 来 今天来看一看MySQL是如何循着合适的执行计划的?
小小工匠
2021/08/17
8740
第 48 期:EXPLAIN TYPE 列的 JOIN 常见场景详解(下)
对于关系型数据库来说,表的设计 以及 SQL 的写法 尤为重要,占据性能的 90% 都不为过,所以这次专门针对这两大类知识领域,为您抽丝剥茧详细分析。
爱可生开源社区
2025/01/07
1360
第 48 期:EXPLAIN TYPE 列的 JOIN 常见场景详解(下)
Extra(5)—mysql执行计划(五十一)
前面说了有type,simple表示普通查询或者连接查询,primary代表union最左边的select,union result代表union查询的临时表去重,所以union all没有去重功能,subquery代表in的子查询物化表的情况下才会出现,dependent subquery代表相关子查询,dependent union代表相关union查询,还有driverd子查询,from后面的,也需要物化,还有物化后转连接查询,这些都能看到mysql优化器是采用哪种查询方式。
keying
2022/07/26
5770
MySQL - 索引优化案例实操
当然了,也不是所有的情况都不走索引, MySQL会基于Cost选择一个合适的 ,如果没有走索引,可能mysql内部可能觉得第一个字段就用范围,结果集应该很大,回表效率不高,还不如就全表扫描
小小工匠
2021/08/17
5020
一个线上MySQL表查询引发的报警
今天遇见了一个线上的MySQL问题,问题的内容是某个阿里云ECS频繁报警,报警的内容是:CPU使用率超过阈值。下面是具体的Grafana报警中负载、CPU和磁盘使用率的图像:
AsiaYe
2020/03/26
1K0
MYSQL索引条件下推的简单测试
自MySQL 5.6开始,在索引方面有了一些改进,比如索引条件下推(Index condition pushdown,ICP),严格来说属于优化器层面的改进。 如果简单来理解,就是优化器会尽可能的把index condition的处理从Server层下推到存储引擎层。举一个例子,有一个表中含有组合索引idx_cols包含(c1,c2,…,cn)n个列,如果在c1上存在范围扫描的where条件,那么剩余的c2,…,cn这n-1个上索引都无法用来提取和过滤数据,而ICP就是把这个事情优化一下。 我们在MySQL
jeanron100
2018/03/21
1.8K0
相关推荐
MySQL中explain的结果​字段介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验