概述

一般在做SQL优化的时候讲究使用EXISTS带替代IN的做法，理由是EXISTS执行效率要比IN高。

个人理解：

IN表示范围，指某一字段在某一范围之内，这个范围一般使用子查询来获取，由此可知IN子查询返回的结果应该就是这个范围集。

EXISTS表示存在，指至少存在一处，这个条件由EXISTS子查询来完成，但是在这里EXISTS子查询返回的结果却不再是一个结果集，而是一个布尔值（true或false），其实这个挺好理解的，EXISTS就表示如果子查询能查到值则返回true，则执行EXISTS之前的语句。

测试数据

员工参数课程培训数据，两次不同课程培训分别存在CLASS_A 和 CLASS_B 两张表中。

CLASS_A：

CLASS_B：

需求：查找同时参加了两门课程的员工。

两种方式实现

下面分别使用in 和 exists两种方式实现。

1、in 方式查询

SELECT *
FROM class_a
WHERE id IN ( SELECT id FROM class_b);

2、exists 方式查询

SELECT *
FROM class_a A
WHERE EXISTS ( 
 SELECT 
 FROM class_b B
 WHERE A.id = B.id
);

说明：

上述两种方法查询结果一样，但exists 方式速度要快。分析如下：

1）如果连接列id 上有索引，那么查询CLASS_B时，无需查询实际表，仅需要查索引就可以了。

2）使用exists ，那么只有查到一行数据满足条件就会终止查询，不会产生临时表。

3）使用in查询时，数据库首先会执行子查询，然后将结果保存在临时表中，然后扫描整个临时表，很多情况下非常耗费资源。

如何用exists来代替in

假如有一个表user，它有两个字段id和name，要查询名字中带a的用户信息：

 最简单的SQL：select from user where name like '%a%';
 使用IN的SQL：select u.from user u where u.id in (select uu.id from user uu where uu.name like '%a%');

将使用IN的SQL修改为使用EXISTS的SQL该怎么写呢？

一开始我直接将u.id in 替换为EXISTS，获得如下语句：

 select u.from user u where exists(select uu.id from user uu where uu.name like '%a%');

经过测试发现输出结果错误，该语句将所有的用户全部一个不漏的查询出来了，相信你也发现了问题，后来我对上述语句做了修改如下：

 select u.from user u where exists (select uu.id from user uu where uu.name like '%a%' and uu.id=u.id);

只是在子查询中添加了“and uu.id=u.id”,结果查询结果正确。

总结：EXISTS子查询可以看成是一个独立的查询系统，只为了获取真假逻辑值，EXISTS子查询与外查询查询的表是两个完全独立的毫无关系的表（当第二个表中的name中有包含a的姓名存在，那么就执行在第一个表中查询所有用户的操作），当我们在子查询中添加了id关联EXISTS子查询与外查询查询的表就统一了，是二者组合组建的虚表，是同一个表（这样当子查询查询到虚表中当前行的uu.name中包含a时，则将虚表当前行中对应的u.id与u.name查询到了）

所以一切的重点就在这个ID关联之上，添加ID关联，数据库会先将两张表通过ID关联组合成一张虚表，所有的查询操作都在这张虚表上完成，操作的是同一张表，当然就不会出现之前的那种情况了！