撸了今年阿里、头条和美团的面试,我有一个重要发现.......>>>
说在前面 数据库分页是后台经常要使用的技术手段,有时候进行数据库查询会根据业务需要对某一字段排序,那么当待排序字段值相同时,我们得到的查询结果会是什么呢?
问题描述 数据分页时需要根据数据记录创建时间create_time字段倒序,即使用order by create_time desc,但是我们会发现,前端进行请求时获取的数据并不正确,分页中出现了一定的重复数据。
问题原因 期初还很好奇,总数没问题,总查询也没问题,为什么数据会重复了,然后会把部分数据给覆盖了。后来,通过查看SQL发现,是根据时间进行排序的,然而 这个时间 恰恰 好多数据都是 同一时间插入,或者 设置的 同一时间。
先后执行 总查询(也就是不分页),是没有重复。
再次执行分页查询,分两页查询就有了出路。(且,两次查询出来的数据和总查询数据不一样了)
后来 发现,当SQL中ORDER BY待排序字段值相同时,系统对数据的排序可能变得随机,即一会儿这条数据在前面,一会儿这条数据在后面了 ,所以当翻页的时候我们很容易便看到了重复的数据。
当然 数据重复,你是不知道哪个是真的?哪个是假的?的。意思就是,第一页你看到了123,第二页看到了,345。或许真正的排序是 123645。
举个例子 我们可以通过一组数据做个简单实验,以下为一组实验数据,member_id字段为数据主键,数据的create_time字段完全相同:
我们执行以下SQL,将数据以create_time字段倒序查询,查询结果如下:
select member_id,create_time from member order by create_time desc; 查询结果:
我们发现查询结果中,数据排序变成了一种无序状态,这也是导致我们分页查询时出现重复数据的问题原因。 我们执行以下SQL,将数据以create_time字段倒序后再根据主键排序查询,查询结果如下:
select member_id,create_time from member order by create_time desc,member_id;
我们发现数据恢复了有序的状态。这也为我们提供了避免数据分页时待排序字段值相同情况时结果无序的解决方案。
SQL中ORDER BY相同值结果乱序的具体原因 查阅了Goole和相关资料,大概总结了这种情况的原因。其实发生这种现象是“故意”设计的。
如果没有指定ORDER BY语句,则SQL Server(或任何RDBMS)不保证以特定顺序返回结果。 有些人认为,如果没有指定order by子句,行总是以聚簇索引顺序或物理磁盘顺序返回。 然而,这是不正确的,因为在查询处理期间可以改变行顺序的许多因素,例如并行的HASH连接是更改行顺序的操作符的一个很好的例子。
如果指定ORDER BY语句,SQL Server将对行进行排序,并按请求的顺序返回。 但是,如果该顺序不是确定性的,即可能有重复的值,则在每个具有相同值的组中,由于与上述相同的原因,该顺序是“随机的”。
确保确定性顺序的唯一方法是在ORDER BY子句中包含保证的唯一列或列组(例如主键)。
总结 为了避免类似的问题,我们可以将主键(或者具有唯一性的字段)排序引入需要排序的业务字段后。 ———————————————— 版权声明:本文为CSDN博主「Soinice」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。