Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SQL优化——IN和EXISTS谁的效率更高

SQL优化——IN和EXISTS谁的效率更高

作者头像
数据和云
发布于 2021-08-27 08:06:05
发布于 2021-08-27 08:06:05
6K04
代码可运行
举报
文章被收录于专栏:数据和云数据和云
运行总次数:4
代码可运行

点击上方"蓝字"

关注我们,享更多干货!

IN和EXISTS被频繁使用在SQL中,虽然作用是一样的,但是在使用效率谁更高这点上众说纷纭。下面我们就通过一组测试来看,在不同场景下,使用哪个效率更高。

测试数据:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
B: 大表,大约300000行数据

CREATE TABLE `B` (
  `id` int NOT NULL AUTO_INCREMENT,
  `B_id` int NOT NULL,
  `value` varchar(20) NOT NULL,
  `flag` int not null,
   PRIMARY KEY (`id`),
   KEY `idx_b_flag` (`flag`),
   KEY `idx_b_id` (`B_id`)
)


A: 小表,20000行数据

CREATE TABLE `A` (
  `id` int NOT NULL AUTO_INCREMENT,
  `flag` int NOT NULL,
  `value` varchar(20) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_a_flag` (`flag`)
)

测试1:

子查询 select flag from B where B_id<100 结果集99条。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
select * from A where flag in (select flag from B where B_id<100 );
198 rows in set (0.00 sec)
select * from A where exists (select * from B where B_id<100 and A.flag=B.flag);
198 rows in set (0.10 sec)

可以看到本次测试IN效率高于EXISTS。

再看执行计划:

IN的执行计划:

(1)执行A表的查询,查询条件是A.flag在结果集B里面,可以使用到A表的索引flag;

(2)执行B表的子查询,得到结果集B,可以使用到B表的索引B_id。

EXISTS的执行计划:

(1)先将A表所有记录取到;

(2)逐行针对A表的记录,去关联B表,判断B表的子查询是否有返回数据,5.5之后的版本使用Block Nested Loop(Block 嵌套循环);

(3)如果子查询有返回数据,则将A当前记录返回到结果集。

A相当于取全表数据遍历,B可以使用到索引。

测试2

子查询 select flag from B where B_id>100 结果集 299899条。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
select * from A where flag in (select flag from B where B_id>100 );
19798 rows in set (0.09 sec)
select * from A where exists (select * from B where B_id>100 and A.flag=B.flag);
19798 rows in set (0.06 sec)

可以看到本次EXISTS效率比IN高。

再看执行计划:

两者的索引使用情况与第一次实验是一致的,当子查询结果集很大,而外部表较小的时候,Exists的Block Nested Loop(Block 嵌套循环)的作用开始显现,查询效率会优于IN。

从两次测试来看,并不能说明谁的效率更高,而应该具体情况具体分析:

首先来看IN和EXISTS的执行原理:

IN是做外表和内表通过Hash连接,先查询子表,再查询主表,不管子查询是否有数据,都对子查询进行全部匹配。

EXISTS是外表做loop循环,先主查询,再子查询,然后去子查询中匹配,如果匹配到就退出子查询返回true,将结果放到结果集。

IN原理

在in()的执行中,先执行内表得到结果集,再执行外表。外表会对所有的内表结果集匹配,也就是说:如果外表有100,内表有10000,就会执行100*10000次。所以在内表比较大的时候,不合适用in()方法,效率比较低。

select * from 外表 a where id in (select 相关id from 内表) IN的执行类似如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
List resultSet=[];
  Array A=(select * from A);
  Array B=(select id from B);
   
  for(int i=0;i<A.length;i++) {
     for(int j=0;j<B.length;j++) {
        if(A[i].id==B[j].id) {
           resultSet.add(A[i]);
           break;
        }
     }
  }
  return resultSet;

EXISTS原理

exists()的执行过程中,并没有对每一条内表的数据都进行查询,而是存在该条数据的时候会将结果集存起来,到最后的时候同一输出结果集。

select a.* from 外表 a where exists(select 1 from 内表 b where a.id=b.id) 的EXISTS的执行语句如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
List resultSet=[];
Array A=(select * from 外表 A)
 
for(int i=0;i<A.length;i++) {
   if(exists(A[i].id) {    //执行select 1 from 内表 b where b.id=a.id是否有记录返回
       resultSet.add(A[i]);
   }
}
return resultSet;

设:外表A,内表B。

A表有10000条记录,B表有1000000条记录, 那么exists()会执行10000次去判断A表中的id是否与B表中的id相等。

A表有10000条记录,B表有100000000条记录,那么exists()还是执行10000次,因为它只执行A.length次,可见B表数据越多,越适合exists()发挥效果。

再如:A表有10000条记录,B表有100条记录,那么exists()还是执行10000次,还不如使用in()遍历10000*100次,因为in()是在内存里遍历比较,而exists()需要查询数据库,我们都知道查询数据库所消耗的性能更高,而内存比较很快。

# 总结 #

1、IN查询在内部表和外部表上都可以使用到索引;

2、EXISTS查询仅内部表上可以使用到索引,外表会全表扫描;当子查询结果集很大,而外部表较小的时候,EXISTS的Block Nested Loop(Block 嵌套循环)的作用开始显现,查询效率会优于IN;

3、当子查询结果集较小,而外部表很大的时候,EXISTS的Block嵌套循环优化效果不明显,IN 的外表索引优势占主要作用,此时IN的查询效率会优于EXISTS。

子查询结果集越大用EXISTS,子查询结果集越小用IN。

墨天轮原文链接:https://www.modb.pro/db/95929(复制链接至浏览器或点击文末阅读原文查看)

关于作者

陈家睿,云和恩墨MySQL技术顾问,拥有MySQL OCP、PGCE、OBCA、SCDP证书,长期服务于电信行业。现负责公司MySQL数据库、分布式数据库运维方面的技术工作;热衷于运维故障处理、备份恢复、升级迁移、性能优化的学习与分享。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据和云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
EXISTS 替代 IN 的性能优化技巧
在数据库查询优化中,IN 和 EXISTS 是开发者常用的两种子查询操作符,但它们对性能的影响却大相径庭。本文将通过实际场景分析,深入探讨为何 EXISTS 在多数情况下比 IN 更高效,并分享如何通过简单的语法调整提升查询性能。
Jimaks
2025/06/03
1310
EXISTS 替代 IN 的性能优化技巧
数据库 SQL中IN和EXISTS用法的区别
in: in是把外表和内表做hash连接,先查询内表,再把内表结果与外表匹配,他是先将数据督导内存中,然后取与外表匹配。他要执行的次数是外表的长度*内表结果的长度 exists: exists是对外表做loop循环,每次loop循环再对内表(子查询)进行查询,那么因为对内表的查询使用的索引,他只需要执行的次数是外表的长度。
Java架构师必看
2021/04/22
1.3K0
Oracle的常见问题汇总(2)——​ORACLE IN与EXISTS语句的区别
1、第一种解释方法: select * from A where id in(select id from B) 以上查询使用了in语句,in()只执行一次,它查出B表中的所有id字段并缓存起来.之后,检查A表的id是否与B表中的id相等,如果相等则将A表的记录加入结果集中,直到遍历完A表的所有记录. 它的查询过程类似于以下过程 List resultSet=[]; Array A=(select * from A); Array B=(select id from B); for(int i
用户1257215
2018/01/30
1K0
不要再问我 in,exists 走不走索引了...
最近,有一个业务需求,给我一份数据 A ,把它在数据库 B 中存在,而又比 A 多出的部分算出来。由于数据比较杂乱,我这里简化模型。
烟雨星空
2020/09/01
2K0
不要再问我 in,exists 走不走索引了...
MySQL(八)|MySQL中In与Exists的区别(2)
关于In与Exists的比较,先说结论,归纳出IN 和Exists的适用场景: 1)IN查询在内部表和外部表上都可以使用到索引。 2)Exists查询仅在内部表上可以使用到索引。 3)当子查询结果集很大,而外部表较小的时候,Exists的Block Nested Loop(Block 嵌套循环)的作用开始显现,并弥补外部表无法用到索引的缺陷,查询效率会优于IN。 4)当子查询结果集较小,而外部表很大的时候,Exists的Block嵌套循环优化效果不明显,IN 的外表索引优势占主要作用,此时IN的查询
黄小怪
2018/06/06
4.7K0
MySQL查询语句中的IN 和Exists 对比分析
最近在写SQL语句时,对选择IN 还是Exists 犹豫不决,于是把两种方法的SQL都写出来对比一下执行效率,发现IN的查询效率比Exists高了很多,于是想当然的认为IN的效率比Exists好,但本着寻根究底的原则,我想知道这个结论是否适用所有场景,以及为什么会出现这个结果。
星哥玩云
2022/08/16
1.2K0
MySQL查询语句中的IN 和Exists 对比分析
Sql 语句中 IN 和 EXISTS 的区别及应用「建议收藏」
确定给定的值是否与子查询或列表中的值相匹配。in在查询的时候,首先查询子查询的表,然后将内表和外表做一个笛卡尔积,然后按照条件进行筛选。所以相对内表比较小的时候,in的速度较快。
全栈程序员站长
2022/09/18
1K0
Sql 语句中 IN 和 EXISTS 的区别及应用「建议收藏」
Sql 学习查询多种条件(记录自己常用一些方法,本人学习用)
关联查询 查询BO_ACT_MPDL_PROCESS的appid为cwgj时候WFC_PROCESS 的ID,和BO_ACT_MPDL_PROCESS的bindid相等的数据
默 语
2024/11/20
950
Sql 学习查询多种条件(记录自己常用一些方法,本人学习用)
数据库SQL优化大总结1之- 百万级数据库优化方案
小编最近几天一直未出新技术点,是因为小编在忙着总结整理数据库的一些优化方案,特此奉上,优化总结较多,建议分段去消化,一口吃不成pang(胖)纸 一、百万级数据库优化方案 1.对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 最好不要给数据库留NULL,尽
码神联盟
2018/03/16
5.7K1
数据库SQL优化大总结1之- 百万级数据库优化方案
sql优化40秒到0.1秒的奥秘
经和运维配合查看,发现是SQL语句问题,有个sql查询脚本执行竟然消耗了40秒,我拿出来自己执行发现亦是如此。
灬沙师弟
2023/09/06
3320
sql优化40秒到0.1秒的奥秘
SQL优化
此优化方案指的是通过优化 SQL 语句以及索引来提高 MySQL 数据库的运行效率,具体内容如下:
时代疯
2021/07/22
8440
Oracle查看分析执行计划、建立索引以及SQL优化
Step2: select * from table(dbms_xplan.display)
chenchenchen
2022/03/09
4.4K0
Oracle查看分析执行计划、建立索引以及SQL优化
SQL中EXISTS的用法
比如在Northwind数据库中有一个查询为 SELECT c.CustomerId,CompanyName FROM Customers c WHERE EXISTS( SELECT OrderID FROM Orders o WHERE o.CustomerID=c.CustomerID) 这里面的EXISTS是如何运作呢?子查询返回的是OrderId字段,可是外面的查询要找的是CustomerID和CompanyName字段,这两个字段肯定不在OrderID里面啊,这是如何匹配的呢?
全栈程序员站长
2022/09/07
2.1K0
SQL中EXISTS的用法
Explain 执行计划 和 SQL优化
在分析查询性能时,考虑EXPLAIN关键字同样很管用。EXPLAIN关键字一般放在SELECT查询语句的前面,用于描述MySQL如何执行查询操作、以及MySQL成功返回结果集需要执行的行数。explain 可以帮助我们分析 select 语句,让我们知道查询效率低下的原因,从而改进我们查询,让查询优化器能够更好的工作,可以帮助选择更好的索引和写出更优化的查询语句。
星哥玩云
2022/08/17
7370
Explain 执行计划 和 SQL优化
SQL中的in与not in、exists与not exists的区别以及性能分析
in是把外表和内表作hash连接,而exists是对外表作loop循环,每次loop循环再对内表进行查询,一直以来认为exists比in效率高的说法是不准确的。
xcbeyond
2020/11/03
2.6K0
MySQL(七)|MySQL中In与Exists的区别(1)
最近被一条SQL语句弄的有点兴奋,具体情况是这样的... 我这边有两个表需要关联查询,表的情况如下: # 2759174行数据 SELECT COUNT(*) FROM tb_data t1; # 7262行数据 SELECT COUNT(*) FROM tb_task t2; # 执行时间为44.88s SELECT SQL_NO_CACHE t1.id FROM tb_data t1 WHERE t1.task_id IN (SELECT t2.id FROM tb_task t2); # 执行
黄小怪
2018/06/06
17.3K1
深入探索SQL优化:利用慢查询日志和explain提升数据库效率
开始之前推荐一篇实用的文章:《MySQL存储引擎大厂面试经典三连问》,作者:【小白的大数据之旅】。
Lion 莱恩呀
2024/11/29
2600
深入探索SQL优化:利用慢查询日志和explain提升数据库效率
数据库优化方案之SQL脚本优化
随着数据库数据越来越大,数据单表存在的数据量也就随之上去了,那么怎么样让我们的脚本查询数据更快呢?
用户1112962
2019/11/15
1.5K0
mysql如何优化慢查询_慢sql优化思路
在公司实习的时候,导师分配了SQL慢查询优化的任务,任务是这样的:每周从平台中导出生产数据库的慢查询文件进行分析。进行SQL优化的手段也主要是修改SQL写法,或者新增索引。
全栈程序员站长
2022/11/04
4.3K0
mysql如何优化慢查询_慢sql优化思路
GreatSQL优化技巧:半连接(semijoin)优化
半连接是在GreatSQL内部采用的一种执行子查询的方式,semi join不是语法关键字,不能像使用inner join、left join、right join这种语法关键字一样提供给用户来编写SQL语句。
GreatSQL社区
2024/04/18
1300
GreatSQL优化技巧:半连接(semijoin)优化
推荐阅读
相关推荐
EXISTS 替代 IN 的性能优化技巧
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验