首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Elasticsearch使用:Routing API

Elasticsearch使用:Routing API

作者头像
HLee
修改于 2021-02-19 03:47:53
修改于 2021-02-19 03:47:53
1.6K00
代码可运行
举报
文章被收录于专栏:房东的猫房东的猫
运行总次数:0
代码可运行

简介

Elasticsearch分布式设计的基本思想是Elasticsearch集群由多个服务器节点组成,集群中的一个索引分为多个分片,每个分片可以分配在不同的节点上。其中每个分片都是一个单独的功能完成的Lucene实例,可以独立地进行写入和查询服务,ES中存储的数据分布在集群分片的一个或多个上,其结构简单描述为下图。

在上面的架构图中,集群由于三个节点组成,每个节点上又与两个分片,想要读写文档就必须知道文档被分配在哪个分片上,这也正是本文要讲的routing功能的作用。

Routing

routing参数是一个可选参数,默认使用文档的_id值,可以用在INDEX, UPDATE,GET, SEARCH, DELETE等各种操作中。在写入(包括更新)时,用于计算文档所属分片,在查询(GET请求或指定了routing的查询)中用于限制查询范围,提高查询速度。

计算方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
shardId = hash(_routing) % num_primary_shards

通过该公式可以保证使用相同routing的文档被分配到同一个shard上,当然在默认情况下使用_id作为routing起到将文档均匀分布到多个分片上防止数据倾斜的作用。

routing_partition_size参数

使用了routing参数可以让routing值相同的文档分配到同一个分片上,从而减少查询时需要查询的shard数,提高查询效率。但是使用该参数容易导致数据倾斜。为此,ES还提供了一个index.routing_partition_size参数(仅当使用routing参数时可用),用于将routing相同的文档映射到集群分片的一个子集上,这样一方面可以减少查询的分片数,另一方面又可以在一定程度上防止数据倾斜。引入该参数后计算公式如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards

Routing源码

如下为计算文档归属分片的源码,从源码中我们可以看到ES的哈希算法使用的是Murmur3,取模使用的是java的floorMod

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
version: 6.5
path: org\elasticsearch\cluster\routing\OperationRouting.java

public static int generateShardId(IndexMetaData indexMetaData, @Nullable String id, @Nullable String routing) {
    final String effectiveRouting;
    final int partitionOffset;

    if (routing == null) {
        assert(indexMetaData.isRoutingPartitionedIndex() == false) : "A routing value is required for gets from a partitioned index";
        effectiveRouting = id; //默认使用id
    } else {
        effectiveRouting = routing;
    }

    if (indexMetaData.isRoutingPartitionedIndex()) {//使用了routing_partition_size参数
        partitionOffset = Math.floorMod(Murmur3HashFunction.hash(id), indexMetaData.getRoutingPartitionSize());
    } else {
        // we would have still got 0 above but this check just saves us an unnecessary hash calculation
        partitionOffset = 0;
    }

    return calculateScaledShardId(indexMetaData, effectiveRouting, partitionOffset);
}

private static int calculateScaledShardId(IndexMetaData indexMetaData, String effectiveRouting, int partitionOffset) {
    final int hash = Murmur3HashFunction.hash(effectiveRouting) + partitionOffset;

    // we don't use IMD#getNumberOfShards since the index might have been shrunk such that we need to use the size
    // of original index to hash documents
    return Math.floorMod(hash, indexMetaData.getRoutingNumShards()) / indexMetaData.getRoutingFactor();
}

问题及解决方案

数据倾斜

如前面所述,用户使用自定义routing可以控制文档的分配位置,从而达到将相似文档放在同一个或同一批分片的目的,减少查询时的分片个数,提高查询速度。然而,这也意味着数据无法像默认情况那么均匀的分配到各分片和各节点上,从而会导致各节点存储和读写压力分布不均,影响系统的性能和稳定性。对此可以从以下两个方面进行优化

  • 使用routing_partition_size参数

如前面所述,该参数可以使routing相同的文档分配到一批分片(集群分片的子集)而不是一个分片上,从而可以从一定程度上减轻数据倾斜的问题。该参数的效果与其值设置的大小有关,当该值等于number_of_shard时,routing将退化为与未指定一样。当然该方法只能减轻数据倾斜,并不能彻底解决。

  • 合理划分数据和设置routing值

从前面的分析,我们可以得到文档分片计算的公式,公式中的hash算法和取模算法也已经通过源码获取。因此用户在划分数据时,可以首先明确数据要划分为几类,每一类数据准备划分到哪部分分片上,再结合分片计算公式计算出合理的routing值,当然也可以在routing参数设置之前设置一个自定义hash函数来实现,从而实现数据的均衡分配。

  • routing前使用自定义hash函数

很多情况下,用户并不能提前确定数据的分类值,为此可以在分类值和routing值之间设置一个hash函数,保证分类值散列后的值更均匀,使用该值作为routing,从而防止数据倾斜。

异常行为

ES的id去重是在分片维度进行的,之所以这样做是ES因为默认情况下使用_id作为routing值,这样id相同的文档会被分配到相同的分片上,因此只需要在分片维度做id去重即可保证id的唯一性。

然而当使用了自定义routing后,id相同的文档如果指定了不同的routing是可能被分配到不同的分片上的,从而导致同一个索引中出现两个id一样的文档,这里之所以说“可能”是因为如果不同的routing经过计算后仍然被映射到同一个分片上,去重还是可以生效的。因此这里会出现一个不稳定的情况,即当对id相同routing不同的文档进行写入操作时,有的时候被更新,有的时候会生成两个id相同的文档,具体可以使用下面的操作复现

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 出现两个id一样的情况
POST _bulk
{"index":{"_index":"routing_test","_id":"123","routing":"abc"}}
{"name":"zhangsan","age":18}
{"index":{"_index":"routing_test","_id":"123","routing":"xyz"}}
{"name":"lisi","age":22}

GET routing_test/_search

# 相同id被更新的情况
POST _bulk
{"index":{"_index":"routing_test_2","_id":"123","routing":"123"}}
{"name":"zhangsan","age":18}
{"index":{"_index":"routing_test_2","_id":"123","routing":"123456"}}
{"name":"lisi","age":22}

GET routing_test_2/_search

以上测试场景在5.6.4, 6.4.3, 6.8.2集群上均验证会出现,在7.2.1集群上没有出现(可能是id去重逻辑发生了变化,这个后续研究一下后更新)。

对于这种场景,虽然在响应行为不一致,但是由于属于未按正常使用方式使用(id相同的文档应该使用相同的routing),也属于可以理解的情况,官方文档上也有对应描述, 参考地址

常规用法

文档划分及routing指定

  • 明确文档划分

使用routing是为了让查询时有可能出现在相同结果集的文档被分配到一个或一批分片上。因此首先要先明确哪些文档应该被分配在一起,对于这些文档使用相同的routing值,常规的一些自带分类信息的文档,如学生的班级属性,产品的分类等都可以作为文档划分的依据。

  • 确定各类别的目标分片

当然这一步不是必须的,但是合理设置各类数据的目标分片,让他们尽量均匀分配,可以防止数据倾斜。因此建议在使用前就明确哪一类数据准备分配在哪一个或一批分片上,然后通过计算给出这类文档的合理routing值

  • routing分布均匀

在很多场景下分类有哪些值不确定,因此无法明确划分各类数据的分片归属并计算出routing值,对于这种情况,建议可以在routing之前增加一个hash函数,让不同文档分类的值通过哈希尽量散列得更均匀一些,从而保证数据分布平衡。

Routing的使用

  • 写入操作

文档的PUT, POST, BULK操作均支持routing参数,在请求中带上routing=xxx即可。使用了routing值即可保证使用相同routing值的文档被分配到一个或一批分片上。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public boolean addIndexBulk(String indexName, Map<String, Object> jsonString, String id, String routing) {

    IndexRequest request = new IndexRequest(indexName, "_doc", id);
    request.source(jsonString, XContentType.JSON);
    request.routing(routing);

    dataBulkProcessor.add(request);

    return true;
}
  • GET操作

对于使用了routing写入的文档,在GET时必须指定routing,否则可能导致404,这与GET的实现机制有关,GET请求会先根据routing找到对应的分片再获取文档,如果对写入使用routing的文档GET时没有指定routing,那么会默认使用id进行routing从而大概率无法获得文档。

  • 查询操作

查询操作可以在body中指定_routing参数(可以指定多个)来进行查询。当然不指定_routing也是可以查询出结果的,不过是遍历所有的分片,指定了_routing后,查询仅会对routing对应的一个或一批索引进行检索,从而提高查询效率,这也是很多用户使用routing的主要目的。

  • UPDATE或DELETE操作

UPDATE或DELETE操作与GET操作类似,也是先根据routing确定分片,再进行更新或删除操作,因此对于写入使用了routing的文档,必须指定routing,否则会报404响应。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
/**
 * 使用BulkProcessor批量删除数据
 * @param indexName 索引名称
 * @param id    删除的id
 * @param routing
 */
public boolean deleteIndexBulk(String indexName, String id,  String routing) {

    DeleteRequest deleteRequest = new DeleteRequest(indexName,"_doc",  id);
    deleteRequest.routing(routing);
    dataBulkProcessor.add(deleteRequest);

    return true;
}

设置routing为必选参数

使用routing写入的文档,在进行GET,UPDATE或DELETE操作时如果不指定routing参数会出现异常。为此ES提供了一个索引mapping级别的设置,_routing.required, 来强制用户在INDEX,GET, DELETE,UPDATA一个文档时必须使用routing参数。当然查询时不受该参数的限制的。该参数的设置方式如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
PUT my_index
{
  "mappings": {
    "_doc": {
      "_routing": {
        "required": true 
      }
    }
  }
}

Routing结合别名使用

别名功能支持设置routing, 如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
POST /_aliases
{
    "actions" : [
        {
            "add" : {
                 "index" : "test",
                 "alias" : "alias1",
                 "routing" : "1"
            }
        }
    ]
}

将routing和别名结合,可以对使用者屏蔽读写时使用routing的细节,降低误操作的风险,提高操作的效率。

routing是ES中相对高阶一些的用法,在用户了解业务数据分布和查询需求的基础之上,可以对查询性能进行优化,然而使用不当会导致数据倾斜,重复ID等问题。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
《Elasticsearch 源码解析与优化实战》第7章:写流程
本章分析ES写入单个和批量文档写请求的处理流程,仅限于ES内部实现,并不涉及Lucene内部处理。在ES中,写入单个文档的请求称为Index请求,批量写入的请求称为Bulk请求。写单个和多个文档使用相同的处理逻辑,请求被统一封装为BulkRequest。
HLee
2021/05/25
2.5K0
《Elasticsearch 源码解析与优化实战》第7章:写流程
【Elasticsearch专栏 08】深入探索:Elasticsearch中的Routing机制详解
在深入研究Elasticsearch的内部工作原理时,不可避免地会遇到“Routing”这一概念。Routing是Elasticsearch中用于确定文档应存储在哪个分片上的机制。理解Routing的工作原理对于优化Elasticsearch集群的性能、确保数据的一致性和实现特定的数据布局策略至关重要。
夏之以寒
2024/03/04
7960
Elasticsearch冷热分离原理和实践
性能与容量之间的矛盾由来已久,计算机的多级存储体系就是其中一个经典的例子,同样的问题在Elasticsearch中也存在。为了保证Elasticsearch的读写性能,官方建议磁盘使用SSD固态硬盘。然而Elasticsearch要解决的是海量数据的存储和检索问题,海量的数据就意味需要大量的存储空间,如果都使用SSD固态硬盘成本将成为一个很大的问题,这也是制约许多企业和个人使用Elasticsearch的因素之一。为了解决这个问题,Elasticsearch冷热分离架构应运而生。
michelmu
2019/11/26
10.1K7
Elasticsearch冷热分离原理和实践
Elasticsearch分片、副本与路由(shard replica routing)
本文讲述,如何理解Elasticsearch的分片、副本和路由策略。 1、预备知识 1)分片(shard) Elasticsearch集群允许系统存储的数据量超过单机容量,实现这一目标引入分片策略shard。在一个索引index中,数据(document)被分片处理(sharding)到多个分片上。Elasticsearch屏蔽了管理分片的复杂性,使得多个分片呈现出一个大索引的样子。 2)副本(replica) 为了提升访问压力过大是单机无法处理所有请求的问题,Elasticsearch集群引入了副本策略r
用户1225216
2018/03/05
2.8K0
Elasticsearch分片、副本与路由(shard replica routing)
ElasticSearch详解——3.ES索引的创建过程详解
上一篇文章ElasticSearch详解——2.阅读源码详解ES启动过程跟着代码,详细说明了ES的启动过程。这一篇文章主要详细说明ES比较关键的问题:ES中的索引是如何创建的。
开发者日常叨叨
2024/12/26
8710
上厅房,下厨房,ElasticSearch有的忙
强烈建议先读一下本公众号《也浅谈下分布式存储要点》,对ES会有更好的认识。ES融合了倒排索引、行存、列存的诸多特点,已经不再是一个简单的全文搜索引擎。
xjjdog
2019/09/24
4710
上厅房,下厨房,ElasticSearch有的忙
.NET Core接入ElasticSearch 7.5
最近一段时间,团队在升级ElasticSearch(以下简称ES),从ES 2.2升级到ES 7.5。也是这段时间,我从零开始,逐步的了解了ES,中间也踩了不少坑,所以特地梳理和总结一下相关的技术点。
AI.NET 极客圈
2020/05/18
1.6K0
3.5.9 Shard Allocation
分片分配 (shard allocation),是指在索引创建、副本增减、节点增减、分片重平衡等过程将索引分片落实到实际的物理节点的操作,包括但不限于:
tiaotiaoba
2021/07/14
1K0
从0到1理解ElasticSearch文档写入和检索原理
Master Node也是Data Node,通过集群选举出Master Node,选举策略 discovery.zen.minimum_master_nodes = (master_eligible_nodes / 2) + 1
爱拼才会赢
2021/10/14
1.7K3
如何合理规划Elasticsearch的索引|得物技术
随着ES在业务场景中的使用逐渐增多,平台对ES集群的稳定性、管理、运维的压力逐渐增大,通过日常的运维情况来看,发现用户对ES的了解熟悉程度参差不齐,经常性的遇到索引创建不规范,或者参考别人索引的创建脚本进行创建索引,对索引没有一个比较清晰的认知,对索引结构的规划也寥寥无几,为此,平台使用了一些列手段来帮助用户提前合理规划模板,比如索引、模板的创建接入飞书审批流,平台侧会逐一结合业务场景和ES集群情况详细沟通确定索引或者模板结构;又比如ES内核增加业务不停服的动态扩分片能力,旨在进行不合理索引的治理提升ES集群稳定性(索引一旦创建分片是不能修改的),我们内部改动ES源码实现了不停服动态扩分片。
用户10346649
2025/04/15
3650
如何合理规划Elasticsearch的索引|得物技术
elasticsearch文档索引API(二)
上篇文章和读者讨论了Elasticsearch中文档的索引API、自动创建索引、版本控制以及操作类型等问题,本文我们继续上文的话题,来看看文档索引的其他知识点。
江南一点雨
2018/12/17
1.1K0
ELK系列(6) - Elasticsearch常用接口
ES在索引数据时会生成分段(segment,一个segment就是一个完整的lucene倒排索引),分段是不可变的,如果分段中的数据被删除了,实际上只是打了一个删除标志。ES在查询时依然会查询到分段中这些有删除标志的文件,但是在返回结果时会将其过滤。只有在合并分段时,这些文件才会被真正地物理删除,并释放被占用的内存。
雨临Lewis
2022/03/24
8360
Elasticsearch API汇总
描述:health是一个简洁的,一行表示了来自/_cluster/health的相同的信息。
HLee
2020/12/28
1.3K0
Elasticsearch API汇总
【Elasticsearch系列十五】强大特性
number_of_shards 是指索引要做多少个分片,只能在创建索引时指定,后期无法修改。
kwan的解忧杂货铺
2024/09/20
1900
让Elasticsearch飞起来!百亿级实时查询优化实战
经过对 Elasticsearch 多方调研和超过几百亿条数据的插入和聚合查询的验证之后,我们总结出以下几种能够有效提升性能和解决这一问题的方案:
猿天地
2019/06/18
1.7K0
Elasticsearch调优实践
本文基于ES 5.6.4,从性能和稳定性两方面,从linux参数调优、ES节点配置和ES使用方式三个角度入手,介绍ES调优的基本方案。当然,ES的调优绝不能一概而论,需要根据实际业务场景做适当的取舍和调整,文中的疏漏之处也随时欢迎批评指正。
老生姜
2018/11/07
1.6K0
Elasticsearch调优实践
Elasticsearch调优实践
在规模比较大的集群中,可以防止新建shard时扫描所有shard的元数据,提升shard分配速度。
HLee
2021/02/08
6450
Elasticsearch调优实践
深入理解Elasticsearch写入过程
Elasticsearch 是当前主流的搜索引擎,其具有扩展性好,查询速度快,查询结果近实时等优点,本文将对Elasticsearch的写操作进行分析。
michelmu
2019/11/02
3.1K0
深入理解Elasticsearch写入过程
Elasticsearch 分布式特性
cerebro 是一个ES Web管理工具,项目地址 https://github.com/lmenezes/cerebro
小旋锋
2019/01/21
9500
Elasticsearch集群Shard Allocation机制
    Elasticsearch由一些Elasticsearch进程(Node)组成集群,用来存放索引(Index)。为了存放数据量很大的索引,Elasticsearch将Index切分成多个分片(Shard),在这些Shard里存放一个个的文档(document)。通过这一批shard组成一个完整的index。并且,每个Shard可以设置一定数量的副本(Replica),写入的文档同步给副本Shard,副本Shard可以提供查询功能,分摊系统的读负载。在主Shard所在Node(ES进程)挂掉后,可以提升一个副本Shard为主Shard,文档继续写在新的主Shard上,来提升系统的容灾能力。
技术姐
2018/09/11
1.9K0
Elasticsearch集群Shard Allocation机制
相关推荐
《Elasticsearch 源码解析与优化实战》第7章:写流程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档