列存二级索引

最近更新时间:2025-02-11 17:23:32

我的收藏

索引介绍

索引是数据库查询加速的一项重要能力。为充分满足不同用户的查询需求、提升整体数据库性能,只读分析引擎从2.2410.1.0版本起(包含2.2410.1.0版本)支持基于列存的二级索引能力。
通常来说,建立索引对高基数列且低选择率的谓词查询,能大幅减少查询数据量,从而显著优化查询速度。
目前只读分析引擎支持的索引有三种类型:Zonemap Index、Bloom Filter Index、Bitmap Index。
注意:
目前暂未放开自行创建索引的能力,如果您想要体验索引功能,请 提交工单

Zonemap Index

Zonemap Index 属于系统内置索引,用户无需对其特别关注。它会自动维护每一列的统计信息,会针对每一个数据块记录其最大值、最小值以及是否有 NULL 等信息。
对于等值查询、范围查询、IS NULL 这些场景,可以使用最大值、最小值等信息来判断数据文件和数据块是否包含满足条件的数据。如果不包含则跳过不读对应的文件或数据块。通过这种方式,能够减少不必要的 I/O 操作,从而有效加速查询过程。

Bloom Filter Index

Bloom Filter Index 是基于 Bloom Filter 的一种跳数索引。它的原理是利用 Bloom Filter 跳过等值查询指定条件不满足的数据块,以达到减少 I/O,查询加速的效果。
Bloom Filter 是由 Bloom 在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场景,Bloom Filter 具备以下特点:
空间效率高的概率型数据结构,用来检查一个元素是否在一个集合中。
对于一个元素检测是否存在的调用,Bloom Filter 会告诉调用者两个结果之一:可能存在或者一定不存在。

适用场景

Bloom Filter Index 能够对等值查询(包括 = 和 IN)加速,对高基数字段效果比较好。

限制条件

Bloom Filter Index 对 = 和 IN 之外的查询没有效果,比如 !=,NOT INT,>,< 等。
Bloom Filter Index 仅支持:最大长度为256的 INT 类型、String 类型、最大长度为256的 Decimal 类型、Time、Date、DateTime 字段类型。
不支持对表达式创建索引,也不支持多列联合索引。
单主键列或者多字段联合主键中的第一列不支持创建 Bloom Filter Index。

使用索引

在执行 SQL 时,如果 where 条件中的等值谓词或者 IN 谓词中的字段创建了 Bloom Filter Index,那么查询时将自动应用索引进行查询加速。

Bitmap Index

Bitmap Index 是用位图表示的索引,对列的每个键值建立一个位图。相对于其它索引,Bitmap Index 的优点是占用的存储空间非常小,创建和使用非常快,缺点是修改操作锁粒度大,不适合频繁更新的场景。

适用场景

适合建在值重复度高的列上,建议在100到100000之间,例如:职业、地级市等。重复度过高则对比其他类型的索引没有明显优势,重复度过低,则空间效率和性能会大大降低。
特定类型的查询例如 count、or、and 等逻辑操作只需要进行位运算。例如:通过多个条件组合查询,select count(*) from table where city = '南京市' and job = '医生' and Type = 'iphone' and gender ='男'。类似这种场景,如果在每个查询条件列上都建立了 Bitmap Index,则数据库可以进行高效的 bit 运算,能够精确定位到需要的数据,减少磁盘 I/O,并且筛选出的结果集越小,Bitmap Index 的优势越明显。
适用于即席查询、多维分析等分析场景。如果有一张表有100列,用户会使用其中的20个列作为查询条件(任意使用这20个列上的 N 的列),在这些列上创建20个 Bitmap Index,那么所有的查询都可以应用到索引。

不适用场景

值重复度低的列,例如:身份证号码、手机号码等。
重复度过高的列,例如:性别,可以建立 Bitmap Index,但不建议单独作为查询条件使用,建议与其他条件共同过滤。
经常需要更新修改的列。

限制条件

Bitmap Index 支持 =、!=、>、<、>=、<=、in、is null、is not null 等表达式,但多个谓词间只能是 and 连接。
Bitmap Index 仅支持:最大长度为256的 INT 类型、String类型、最大长度为256的 Decimal 类型、Time、Date、DateTime 字段类型。
不支持对表达式创建索引,也不支持多列联合索引。
单主键列或者多字段联合主键中的第一列不支持创建 Bitmap Index。