ngram elasticsearch - 腾讯云开发者社区

文章/答案/技术大牛

发布

Elasticsearch 的 NGram 分词器使用技巧

一、什么是NGram 分词器？ NGram分词器是ES自带的具有前缀匹配搜索功能的一个文本分词器。...官方介绍如下： image.png 链接：https://www.elastic.co/guide/en/elasticsearch/reference/6.8/analysis-ngram-tokenizer.html...} }, "tokenizer": { "ngram_tokenizer": { "type": "ngram...block_id=tuijian_wz https://www.elastic.co/guide/en/elasticsearch/reference/6.8/analysis-ngram-tokenizer.html...https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-tokenfilter.html

16K18 2

使用 Elasticsearch 的 NGram 分词器处理模糊匹配

接到一个任务：用 Elasticsearch 实现搜索银行支行名称的功能。大概就是用户输入一截支行名称或拼音首字母，返回相应的支行名称。...之前有在网上看过一篇文章，主要就是说用 Elasticsearch 处理通配符查询不太适合，然后我在评论中看到作者推荐了一个分词器 NGram。...分词器作为某个字段的分词器，可在索引创建时指定，也可以更新映射关系，以下展示如何在索引创建时指定 NGram 分词器。...{ "settings": { "analysis": { "analyzer": { "ngram_analyzer": { "tokenizer...": "ngram_tokenizer" } }, "tokenizer": { "ngram_tokenizer": { "

2.9K6 0

您找到你想要的搜索结果了吗？

是的

没有找到

分词器ngram,edge-ngram,shingle分析

Ngram,edge-ngram,shingle多元分词器的几个注意点：1、多元分词器Ngram,edge-ngram为单词字符级分词器,通常在索引时间指定，在搜索时间不指定。...DELETE myind_ngramPUT myind_ngram{ "settings": { "analysis": { "analyzer": { "myngram...tokenizer":"mytokenizer" } }, "tokenizer": { "mytokenizer":{ "type":"edge_ngram...", "analyzer":"myngram"}POST _analyze{ "text":"hello world", "tokenizer":{"type":"ngram","min_gram...", "tokenizer":{"type":"edge_ngram","min_gram":1,"max_gram":10}}POST _analyze{ "text":"Quick Foxes

4501 0

白话Elasticsearch23-深度探秘搜索技术之通过ngram分词机制实现index-time搜索推荐

/guide/en/elasticsearch/reference/current/analysis-ngram-tokenizer.html ?...NGram Token Filter: https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-ngram-tokenfilter.html...---- Edge NGram Tokenizer: https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-edgengram-tokenizer.html...Edge NGram Token Filter： https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-edgengram-tokenfilter.html...---- 知识点： autocomplete https://www.elastic.co/guide/en/elasticsearch/reference/current/search-analyzer.html

8234 0

Elasticsearch 查询革新：探索 Wildcard 类型的高效模糊匹配策略

1、背景在生产使用中，Elasticsearch 除了精确匹配的要求，也会有模糊查询的场景。...2、解决方案探讨面对这种问题，传统的解决方案有两种： 2.1 方案一：ngram 分词器使用 ngram 分词器对存入的数据进行精细化的拆分，利用细颗粒度的 token 进行快速的召回。...具体分析： https://elasticsearch.cn/article/171 https://elasticsearch.cn/article/186 优点：使用简单，也不需要额外的存储资源。...第一点，底层还是 ngram 的分词去实现模糊查询的场景，但是这里的 ngram 颗粒度是 3，从功能上满足了模糊查询的需求和保证了 wildcard 查询的高性能。...从 0 到 1 Elasticsearch 8.X 通关视频重磅 | 死磕 Elasticsearch 8.X 方法论认知清单如何系统的学习 Elasticsearch ？ 2023，做点事

5K2 0

基于ngram-tf-idf的余弦距离

本节介绍基于ngram-tf-idf的余弦距离计算相似度。...for word in words if word not in self.stopwords ] stop_word = StopWords() # gen 3-gram def _list_3_ngram

8341 0

Elasticsearch能检索出来，但不能正确高亮怎么办？

死磕Elasticsearch技术微信群 2、一个Demo描述清楚问题注：本文示例DSL在7.2版本运行ok，6.X之前早期版本可能需要微调。...只能更换一种分词Ngram来实现了！ 4、什么是Ngram？ 4.1 Ngram定义 Ngram是一种基于统计语言模型的算法。...对应到Elasticsearch检索，应用场景就更加明确：无分隔符语言文本的切分分词，提高检索效率（相比：wildcard 查询和正则查询）。...zhuanlan.zhihu.com/p/32829048 2、http://blog.sciencenet.cn/blog-713101-797384.html 3、https://www.elastic.co/guide/en/elasticsearch.../reference/current/analysis-ngram-tokenizer.html 4、https://elasticsearch.cn/article/171

4.1K2 0

Elasticsearch自定义分析器订单号搜索

使用edge ngram将每个单词都进行进一步的分词和切分，用切分后的ngram来实现前缀搜索,比如’OD5046240000014238’这样一个订单号会被分解成’O’,’OD’,’OD’,’OD5’...://localhost:9200/myindex' -d '{ "settings": { "analysis": { "filter": { "order_no_edge_ngram_filter..." : { "type" : "edge_ngram", "min_gram" : 4, "max_gram" : 25 } },...: 0, "end_offset": 18, "type": "", "position": 0 } ] } reference ElasticSearch...解析机制常见用法库之 Tokenizer常用用法 Elasticsearch - 指定分析器二十四、Elasticsearch通过ngram分词机制实现搜索推荐

1K2 0

由 Elasticsearch 空间换时间的线上问题说开去......

1、线上实战问题请教一下各位朋友，关于 ngram 的 slop 影响搜索结果？...——题目来源：死磕Elasticsearch 知识星球https://t.zsxq.com/08rmVBnhA 2、问题释义大前提：商品码的存储类似之前咱们视频讲过的手机号的存储，传统的分词器（默认的...需要借助于 Ngram 自定义分词实现。那么问题来了：Ngram 分词后的数据，用 match_phrase + slop 检索出现了问题，必须 slop 设置很大才可以搞定！什么原因导致的呢？...3、Elasticsearch 空间换时间啥叫空间换时间，拿当下世界杯的例子一看就明白。如下解说员说的：“15人才能打赢”。15人比正常的11人远多4人，这就是多了空间，而换取了时间或结果。...Elasticsearch 中 Ngram 分词本质就是空间换时间的方式，以极小的粒度切分文档，空间存储激增、写入速度会受到影响，但换来了检索效率的提升！

7871 0

谈谈最近ES运维中遇到的几个有意思的问题

parse", "caused_by": { "type": "illegal_state_exception", "reason": "Mixing up field types: class org.elasticsearch.index.mapper.KeywordFieldMapper...= class org.elasticsearch.index.mapper.TextFieldMapper$TextFieldType on field title" } } 通过排查：按照信息提示可知...": { "tokenizer": "ngram_tokenizer" } }, "tokenizer": {..."ngram_tokenizer": { "type": "ngram", "min_gram": 1,...Reindex指定链接迁移参考链接：https://www.elastic.co/guide/en/elasticsearch/reference/6.4/docs-reindex.html

1.5K4 1

一起学Elasticsearch系列-模糊搜索

本文字数：3668字，阅读大约需要 10 分钟在 Elasticsearch 中，模糊搜索是一种近似匹配的搜索方式。它允许找到与搜索词项相似但不完全相等的文档。...在 Elasticsearch 中，可以使用 prefix 查询来执行前缀搜索。...模糊匹配：fuzzy 模糊查询（Fuzzy Query）是 Elasticsearch 中一种近似匹配的搜索方式，用于查找与搜索词项相似但不完全相等的文档。...ngram & edge ngram ngram 和 edge ngram 是两种用于分析和索引文本的字符级别的分词器。...以下是一个示例来说明如何在 Elasticsearch 中使用 ngram 和 edge ngram 分词器： PUT /my_index { "settings": { "analysis

1.8K1 0

Elasticsearch实战 | 如何从数千万手机号中识别出情侣号？

死磕Elasticsearch知识星球 https://t.zsxq.com/Iie66qV 问题补充：索引存储了手机号，同时存储了插入时间。...Elasticsearch自带reindex功能就是实现索引迁移的，当然自定义读写也可以实现。方案一：遍历方式+写入。...": "ngram_tokenizer" } }, "tokenizer": { "ngram_tokenizer": {...核心的操作都是基于Elasticsearch完成的。试想一下，这个环节如果提前是不是更合理呢? 数据图如下所示： ?...这样，Elasticsearch只干它最擅长的事情，剩下的工作前置交给消息队列完成。

1.7K1 1

使用ES Suggester对ASR语音识别的地址进行纠错

elasticsearch的搜索query，大家比较熟悉，但是建议suggester就相对陌生，建议大家可以先了解suggester的知识。...shingle就是token ngram（词级别的ngram）的意思，这个词来自ES的底层lucene。...https://www.elastic.co/guide/en/elasticsearch/reference/current/index-phrases.htmlshingle和ngram tokenizer...shingle：token ngram ，是一个基于词级别的ngram https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-shingle-tokenfilter.htmlngram...tokenizer： char ngram，是一个基于字符级别的ngram https://www.elastic.co/guide/en/elasticsearch/reference/current

2.6K5 0

基于ngram-tf-idf的余弦距离(gensim实现)

for word in words if word not in self.stopwords ] stop_word = StopWords() # gen 3-gram def _list_3_ngram

6182 0

ELK系列(6) - Elasticsearch常用接口

json' -XPUT http://localhost:9200/blog/_doc/1 -d ' { "id": "1", "title": "New version of Elasticsearch..., "priority": 10, "tags": ["announce", "elasticsearch", "release"] }' // 创建blog索引，类型是_doc..., "priority": 10, "tags": ["announce", "elasticsearch", "release"] }' 查询索引 // 查询索引，v参数会显示...Guide 6.7 - Search Settings 2019-07-01 elasticsearch force merge 步骤原创 segment段文件非常大会有什么问题没？...Elasticsearch 集群和索引健康状态及常见错误说明

9322 0

ES系列六、ES字段类型及ES内置analyzer分析

ElasticSearch对字符串拥有两种完全不同的搜索方式....tokenizer logical name description standard tokenizer standard edge ngram tokenizer edgeNGram keyword...analyzers nGram whitespace analyzer whitespace 以空格为分隔符拆分 pattern analyzer pattern 定义分隔符的正则表达式 uax email...ascii folding filter asciifolding length filter length 去掉太长或者太短的 lowercase filter lowercase 转成小写 ngram...filter nGram edge ngram filter edgeNGram porter stem filter porterStem 波特词干算法 shingle filter shingle

3.1K2 1

【全文搜索】全文搜索 PostgreSQL 或 ElasticSearch

在本文中，我记录了在 PostgreSQL（使用 Django ORM）和 ElasticSearch 中实现全文搜索 (FTS) 时的一些发现。...当前的 Django 集成不直接支持 Stemming 或 Fuzziness ElasticSearch ElasticSearch 是一个非常成熟的名称，有很多库可用于与 Django 和其他框架集成...比较图 Postgresql vs ElasticSearch performance graph 结论随着 PostgreSQL 的每个新版本，搜索响应时间都在改进，并且与 ElasticSearch...NGram：它就像一个在单词上移动的滑动窗口——一个连续的字符序列，直到指定长度。例如，术语 Refer 将变成 [R, RE, REF, E, EF, EFE, F, FE, FER]。...NGram 可用于部分搜索单词，甚至从中间搜索单词。最常用的 NGram 类型是 Trigram 和 EdgeGram。模糊性：模糊匹配允许您获得不完全匹配的结果。

3.1K3 0

python操作elasticsearch

""" elasticsearch版本：6.3.0 elasticsearch-python版本：7.14.1 """ from elasticsearch import Elasticsearch,...psycopg2 from datetime import datetime class Test: def __init__(self): self.es_obj = Elasticsearch...": { "type": "ngram", "min_gram": 2,...": { # "type": "edge_ngram", # "min_gram": 1,...print(elasticsearch.

1.5K1 0

Elasticsearch 电商场景：明明有这个关键词，但是搜不出来，怎么办？

Elasticsearch能检索出来，但不能正确高亮怎么办？...由 Elasticsearch 空间换时间的线上问题说开去...... 2、重新梳理一下检索认知 2.1 分词和词典的本质数据索引化的过程是借助分词器完成的，如读者的分词器是 IK 中文分词器。...但，可以尝试空间换时间，借助 Ngram 能解决 99% 以上场景的问题。...针对读者的问题，借助 Ngram 分词实操一下： ### 3.1 创建索引 DELETE new_spy_uat2 PUT new_spy_uat2 { "settings": { "index.max_ngram_diff...要说明的是：Ngram 的本质是空间换时间，可能会导致写入的延时以及存储的成倍增长，选型一定要慎重。只有高精准检索要求的场景才考虑 Ngram 分词。

7111 1

【腾讯云ES】基于NGram分词ES搜索性能优化实践

PUT test-ngram-v1{ "settings": { "index.max_ngram_diff": 10, //核心参数：ngram最大步长，可以手动配置，默认为1。..."analysis": { "analyzer": { "ngram_analyzer" : { "tokenizer" : "ngram_tokenizer"...// 配置ngram分词器。..."type" : "ngram", "max_gram" : "10" // 指定最大步长，按需配置，不能超过"index.max_ngram_diff"。...具体使用方式可以参考：https://www.elastic.co/guide/en/elasticsearch/reference/7.10/dynamic-templates.htmlPUT _index_template

3.8K4 0

点击加载更多

Elasticsearch 的 NGram 分词器使用技巧

使用 Elasticsearch 的 NGram 分词器处理模糊匹配

分词器ngram,edge-ngram,shingle分析

白话Elasticsearch23-深度探秘搜索技术之通过ngram分词机制实现index-time搜索推荐

Elasticsearch 查询革新：探索 Wildcard 类型的高效模糊匹配策略

基于ngram-tf-idf的余弦距离

Elasticsearch能检索出来，但不能正确高亮怎么办？

Elasticsearch自定义分析器订单号搜索

由 Elasticsearch 空间换时间的线上问题说开去......

谈谈最近ES运维中遇到的几个有意思的问题

一起学Elasticsearch系列-模糊搜索

Elasticsearch实战 | 如何从数千万手机号中识别出情侣号？

使用ES Suggester对ASR语音识别的地址进行纠错

基于ngram-tf-idf的余弦距离(gensim实现)

ELK系列(6) - Elasticsearch常用接口

ES系列六、ES字段类型及ES内置analyzer分析

【全文搜索】全文搜索 PostgreSQL 或 ElasticSearch

python操作elasticsearch

Elasticsearch 电商场景：明明有这个关键词，但是搜不出来，怎么办？

【腾讯云ES】基于NGram分词ES搜索性能优化实践

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐