在Elasticsearch中应用聚合时禁用"lowercase_normalizer“规格化器

在Elasticsearch中，聚合（Aggregation）是一种用于分析和统计数据的功能。它允许我们根据指定的条件对文档进行分组、过滤和计算，并生成有关数据集的汇总信息。

在聚合过程中，Elasticsearch使用规格化器（Normalizer）来处理文本字段的值，以便在聚合操作中进行比较和排序。其中，"lowercase_normalizer"是一种规格化器，它将文本值转换为小写形式，以便在聚合操作中进行大小写不敏感的匹配。

然而，有时候我们可能需要禁用"lowercase_normalizer"规格化器，这可能是因为我们希望在聚合操作中保留原始的大小写形式，或者因为我们已经在索引阶段对文本进行了预处理，不需要再次进行大小写转换。

要禁用"lowercase_normalizer"规格化器，我们可以在定义聚合操作时指定一个不同的规格化器或者使用原始的字段值进行聚合。具体的方法取决于我们使用的聚合类型和查询语法。

以下是一些常见的聚合类型和禁用"lowercase_normalizer"规格化器的方法：

Terms Aggregation（词项聚合）：在Terms Aggregation中，我们可以通过在聚合操作中指定"keyword"字段来禁用规格化器。例如：

GET /index/_search
{
  "aggs": {
    "my_terms_agg": {
      "terms": {
        "field": "my_field.keyword"
      }
    }
  }
}

在上述示例中，我们使用了".keyword"后缀来引用原始的文本字段，而不是默认的规格化器字段。

Range Aggregation（范围聚合）：对于Range Aggregation，我们可以直接使用原始的文本字段进行聚合，而无需指定规格化器。例如：

GET /index/_search
{
  "aggs": {
    "my_range_agg": {
      "range": {
        "field": "my_field",
        "ranges": [
          { "to": 10 },
          { "from": 10, "to": 20 },
          { "from": 20 }
        ]
      }
    }
  }
}

在上述示例中，我们直接使用了"my_field"字段进行范围聚合。

需要注意的是，禁用"lowercase_normalizer"规格化器可能会导致聚合操作的结果受到大小写的影响。因此，在禁用规格化器时，我们需要确保数据的大小写一致性，以避免不准确的聚合结果。

关于Elasticsearch的更多信息和相关产品，您可以访问腾讯云的官方文档和产品页面：

ES 是一个近实时的搜索平台，当一个文档写入Lucene后是不能被立即查询到的。Elasticsearch提供了一个refresh操作，会定时地调用lucene的reopen(新版本为openIfChanged)为内存中新写入的数据生成一个新的segment，此时被处理的文档均可以被检索到。refresh操作的时间间隔由refresh_interval参数控制，默认为1s, 可以在写入请求中带上refresh表示写入后立即refresh，另外还可以调用refresh API显式refresh，例如：

010

ElasticSearch 小白从入门到精通

ElasticSearch 简称为 ES，ES 是一个分布式的开源搜索和分析引擎，适用于文本、数字、地理空间、结构化数据、非结构化数据等数据的搜索。ES 是在 Apache Lucene 的基础上完成开发。由 Elastic 于 2010 年发布。ES 通过其简单的 REST 风格的 API、分布式特性、速度和可扩容闻名世界。是 Elastic Stack 的核心组件。Elastic Stack 是一套用于数据采集、扩充、保存、分析、可视化的开源工具。Elastic Stack 称之为 ELK。目前 ELK 包含一系列丰富的轻量数据采集代理，这些代理被称之为 Beats。

【新智元导读】OpenAI研究人员Jakob Foerster在OpenAI博客介绍了一个很有趣的实验，他们发现线性神经网络中的浮点表示实际上在零附近有一个比较大的偏差，由此线性神经网络也可以做非线性的计算。这一发现有助于更好地训练神经网络，以及提升复杂机器学习系统的性能。我们通过实验展示了，使用浮点运算实现的深度线性网络实际上并不是线性的，它们可以进行非线性计算。我们使用进化策略来发现具有这种特征的线性网络中的参数，让我们解决non-trivial的问题。神经网络由线性层+非线性层堆叠而成。理论上，在

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Elasticsearch中应用聚合时禁用"lowercase_normalizer“规格化器

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐