Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Elasticsearch探索:rollover API

Elasticsearch探索:rollover API

作者头像
HLee
修改于 2021-01-12 02:16:34
修改于 2021-01-12 02:16:34
89810
代码可运行
举报
文章被收录于专栏:房东的猫房东的猫
运行总次数:0
代码可运行

简介

rollover API 使你可以根据索引大小,文档数或使用期限自动过渡到新索引。 当 rollover 触发后,将创建新索引,写别名(write alias) 将更新为指向新索引,所有后续更新都将写入新索引。

对于基于时间的 rollover 来说,基于大小,文档数或使用期限过渡至新索引是比较适合的。 在任意时间 rollover 通常会导致许多小的索引,这可能会对性能和资源使用产生负面影响。

Rollover历史数据:

  • 在大多数情况下,无限期保留历史数据是不可行的

         - 时间序列数据随着时间的流逝而失去价值,我们最终不得不将其删除

         - 但是其中一些数据对于分析仍然非常有用 

  • Elasticsearch 6.3 引入了一项新的 rollover 功能,该功能

         - 以紧凑的聚合格式保存旧数据

         - 仅保存您感兴趣的数据

就像上面的图片看到的那样,我们定义了一个叫做 logs-alias 的alias,对于写操作来说,它总是会自动指向最新的可以用于写入index 的一个索引。针对我们上面的情况,它指向 logs-000002。如果新的 rollover 发生后,新的 logs-000003 将被生成,并对于写操作来说,它自动指向最新生产的 logs-000003 索引。而对于读写操作来说,它将同时指向最先的 logs-1,logs-000002 及 logs-000003。在这里我们需要注意的是:在我们最早设定 index 名字时,最后的一个字符必须是数字,比如我们上面显示的 logs-1。否则,自动生产 index 将会失败。

实例分享

我们还是先拿一个 rollover 的例子来说明,这样比较清楚。首先我们定义一个 log-alias 的 alias:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
PUT /%3Clogs-%7Bnow%2Fd%7D-1%3E
{
  "aliases": {
    "log_alias": {
      "is_write_index": true
    }
  }
}

如果大家对于上面的字符串 “%3Clogs-%7Bnow%2Fd%7D-1%3E” 比较陌生的话,可以参考网站 https://www.urlencoder.io/。实际上它就是字符串 “<logs-{now/d}-1>” 的url编码形式。请注意上面的 is_write_index 必须设置为 true。运行上面的结果是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{
    "acknowledged":true,
    "shards_acknowledged":true,
    "index":"logs-2019.10.21-1"
}

显然,它帮我们生产了一个叫做 logs-2019.10.21-1 的 index。接下来,我们先使用我们的 Kibana 来准备一下我们的 index 数据。我们运行起来我们的 Kibana:

我们分别点击上面的1和2处

点击上面的 “Add data”。这样我们就可以把我们的 kibana_sample_data_logs 索引加载到 Elasticsearch 中。我们可以通过如下的命令进行查看:

命令显示结果为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
green open kibana_sample_data_logs ZbiojIYZSPCX0vJn_VOsGg 1 0 14074 0 10.7mb 10.7mb

它显示 kibana_sample_data_logs 具有 11.1M 的数据,并且它有 14074 个文档

我们接下来运行如下的命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
POST _reindex
{
  "source": {
    "index": "kibana_sample_data_logs"
  },
  "dest": {
    "index": "log_alias"
  }
}

这个命令的作用是把 kibana_sample_data_logs 里的数据 reindex 到 log_alias 所指向的 index。也就是把 kibana_sample_data_logs 的文档复制一份到我们上面显示的 logs-2019.10.21-1 索引里。我们做如下的操作查看一下结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET logs-2019.10.21-1/_count

结果:
{
    "count":14074,
    "_shards":{
        "total":1,
        "successful":1,
        "skipped":0,
        "failed":0
    }
}

显然,我们已经复制到所有的数据。那么接下来,我们来运行如下的一个指令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
POST /log_alias/_rollover?dry_run
{
  "conditions": {
    "max_age": "7d",
    "max_docs": 14000,
    "max_size": "5gb"
  }
}

在这里,我们定义了三个条件:

  • 如果时间超过7天,那么自动 rollover,也就是使用新的 index
  • 如果文档的数目超过 14000 个,那么自动 rollover
  • 如果 index 的大小超过 5G,那么自动 rollover

在上面我们使用了 dry_run 参数,表明就是运行时看看,但不是真正地实施。显示的结果是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{
    "acknowledged":false,
    "shards_acknowledged":false,
    "old_index":"logs-2019.10.21-1",
    "new_index":"logs-2019.10.21-000002",
    "rolled_over":false,
    "dry_run":true,
    "conditions":{
        "[max_docs: 1400]":true,
        "[max_size: 5gb]":false,
        "[max_age: 7d]":false
    }
}

根据目前我们的条件,我们的 logs-2019.10.21-1 文档数已经超过 14000 个了,所以会生产新的索引 logs-2019.10.21-000002。因为我使用了 dry_run,也就是演习,所以显示的 rolled_over 是 false。

为了能真正地 rollover,我们运行如下的命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
POST /log_alias/_rollover
{
  "conditions": {
    "max_age": "7d",
    "max_docs": 1400,
    "max_size": "5gb"
  }"settings": {
    "index.number_of_shards": 2
  }
}

结果:
{
    "acknowledged":true,
    "shards_acknowledged":true,
    "old_index":"logs-2019.10.21-1",
    "new_index":"logs-2019.10.21-000002",
    "rolled_over":true,
    "dry_run":false,
    "conditions":{
        "[max_docs: 1400]":true,
        "[max_size: 5gb]":false,
        "[max_age: 7d]":false
    }
}

说明它已经rolled_ovder了。我们可以通过如下写的命令来检查:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET _cat/indices/logs-2019*

显示的结果为:

我们现在可以看到有两个以 logs-2019.10.21 为头的 index,并且第二文档 logs-2019.10.21-000002 文档数为0。如果我们这个时候直接再想 log_alias 写入文档的话:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
POST log_alias/_doc
{
  "agent": "Mozilla/5.0 (X11; Linux x86_64; rv:6.0a1) Gecko/20110421 Firefox/6.0a1",
  "bytes": 6219,
  "clientip": "223.87.60.27",
  "extension": "deb",
  "geo": {
    "srcdest": "IN:US",
    "src": "IN",
    "dest": "US",
    "coordinates": {
      "lat": 39.41042861,
      "lon": -88.8454325
    }
  },
  "host": "artifacts.elastic.co",
  "index": "kibana_sample_data_logs",
  "ip": "223.87.60.27",
  "machine": {
    "ram": 8589934592,
    "os": "win 8"
  },
  "memory": null,
  "message": """            223.87.60.27 - - [2018-07-22T00:39:02.912Z] "GET /elasticsearch/elasticsearch-6.3.2.deb_1 HTTP/1.1" 200 6219 "-" "Mozilla/5.0 (X11; Linux x86_64; rv:6.0a1) Gecko/20110421 Firefox/6.0a1"  """,
  "phpmemory": null,
  "referer": "http://twitter.com/success/wendy-lawrence",
  "request": "/elasticsearch/elasticsearch-6.3.2.deb",
  "response": 200,
  "tags": [
    "success",
    "info"
  ],
  "timestamp": "2019-10-13T00:39:02.912Z",
  "url": "https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3.2.deb_1",
  "utc_time": "2019-10-13T00:39:02.912Z"
}

结果:
{
    "_index":"logs-2019.10.21-000002",
    "_type":"_doc",
    "_id":"xPyQ7m0BsjOKp1OsjsP8",
    "_version":1,
    "result":"created",
    "_shards":{
        "total":1,
        "successful":1,
        "failed":0
    },
    "_seq_no":1,
    "_primary_term":1
}

显然它写入的是 logs-2019.10.21-000002 索引。我们再次查询 log_alias 的总共文档数:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
GET log_alias/_count

结果:
{
    "count":14075,
    "_shards":{
        "total":2,
        "successful":2,
        "skipped":0,
        "failed":0
    }
}

显然它和之前的 14074 个文档多增加了一个文档,也就是说 log_alias 是同时指向 logs-2019.10.21-1 及 logs-2019.10.21-000002。

总结

在今天的文档里,我们讲述了如何使用 rollover API 来自动管理我们的 index。利用 rollover API,它可以很方便地帮我们自动根据我们设定的条件帮我们把我们的Index过度到新的 index。在未来的文章里,我们将讲述如何使用 Index life cycle policy 来帮我们管理我们的 index。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
ES6.3.2版本不支持is_write_index,导致索引别名只能指向一个索引,不能指向多个。这点在此点出。
ES6.3.2版本不支持is_write_index,导致索引别名只能指向一个索引,不能指向多个。这点在此点出。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
PAT 1017 Queueing at Bank (25分) prioriry_queue
Suppose a bank has K windows open for service. There is a yellow line in front of the windows which devides the waiting area into two parts. All the customers have to wait in line behind the yellow line, until it is his/her turn to be served and there is a window available. It is assumed that no window can be occupied by a single customer for more than 1 hour.
vivi
2020/07/14
4270
PTA 1006 Sign In and Sign Out (25 分)
At the beginning of every day, the first person who signs in the computer room will unlock the door, and the last one who signs out will lock the door. Given the records of signing in's and out's, you are supposed to find the ones who have unlocked and locked the door on that day.
freesan44
2021/09/24
3240
最强最全面的大数据SQL面试题和答案(由31位大佬共同协作完成)
本套SQL题的答案是由许多大佬共同贡献,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!
五分钟学大数据
2021/12/27
5.2K0
PTA 7-2 数字之王 (20 分)
的每个数的各位数的立方相乘,再将结果的各位数求和,得到一批新的数字,再对这批新的数字重复上述操作,直到所有数字都是 1 位数为止。这时哪个数字最多,哪个就是“数字之王”。
freesan44
2021/09/11
1540
PTA 7-5 买地攻略 (25 分)
数码城市有土地出售。待售的土地被划分成若干块,每一块标有一个价格。这里假设每块土地只有两块相邻的土地,除了开头和结尾的两块是只有一块邻居的。每位客户可以购买多块连续相邻的土地。
freesan44
2021/09/11
1430
PTA 1083 List Grades (25 分)
Given a list of N student records with name, ID and grade. You are supposed to sort the records with respect to the grade in non-increasing order, and output those student records of which the grades are in a given interval.
freesan44
2021/10/05
1250
第十二届蓝桥杯软件类省赛python组
小蓝准备用这些卡片来拼一些数,他想从1开始拼出正整数,每拼一个,就保存起来,卡片就不能用来拼其它数了。
润森
2022/09/22
6770
第十二届蓝桥杯软件类省赛python组
PTA 1080 MOOC期终成绩 (25 分)
对于在中国大学MOOC(http://www.icourse163.org/ )学习“数据结构”课程的学生,想要获得一张合格证书,必须首先获得不少于200分的在线编程作业分,然后总评获得不少于60分(满分100)。总评成绩的计算公式为 G=(G
freesan44
2021/08/21
3670
荣耀 0905 秋招算法面试题解析
屏幕上会显示"1" "2" "3" "4" "5" "6" "7" "8" "9" "0" "+" "-" "="这些按钮,用户在按了若工按钮之后,如果按了"=",则会把按"="之前的字符串作为一个算式,计算结果。
五分钟学算法
2023/09/09
6730
荣耀 0905 秋招算法面试题解析
PAT 1016 Phone Bills(模拟)
1016. Phone Bills (25) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue A long-distance telephone company charges its customers by the following rules: Making a long-distance call costs a certain amount per minute, d
ShenduCC
2018/04/27
8510
7-8 阅览室 (20 分)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
韩旭051
2019/11/08
5830
一文带你入坑JDK8的新日期时间类 LocalDate、LocalTime、LocalDateTime
参考 https://blog.csdn.net/duan196_118/article/details/111597682 https://blog.csdn.net/qq_24754061/article/details/95500209 https://xijia.blog.csdn.net/article/details/106007147
时间静止不是简史
2023/02/23
4.8K0
一文带你入坑JDK8的新日期时间类 LocalDate、LocalTime、LocalDateTime
PAT(甲级)1006.Sign In and Sign Out(25)
PAT 1141.PAT Ranking of Institutions (25 分)
lexingsen
2022/02/25
2450
PAT 1017 Queueing at Bank (模拟)
1017. Queueing at Bank (25) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue Suppose a bank has K windows open for service. There is a yellow line in front of the windows which devides the waiting area into two parts.
ShenduCC
2018/04/27
7250
PTA 1026 程序运行时间 (15 分)
要获得一个 C 语言程序的运行时间,常用的方法是调用头文件 time.h,其中提供了 clock() 函数,可以捕捉从程序开始运行到 clock() 被调用时所耗费的时间。这个时间单位是 clock tick,即“时钟打点”。同时还有一个常数 CLK_TCK,给出了机器时钟每秒所走的时钟打点数。于是为了获得一个函数 f 的运行时间,我们只要在调用 f 之前先调用 clock(),获得一个时钟打点数 C1;在 f 执行完成后再调用 clock(),获得另一个时钟打点数 C2;两次获得的时钟打点数之差 (C2-C1) 就是 f 运行所消耗的时钟打点数,再除以常数 CLK_TCK,就得到了以秒为单位的运行时间。
freesan44
2021/08/21
2440
PAT 1016 Phone Bills (25分) sort() + map 逻辑较为复杂
A long-distance telephone company charges its customers by the following rules:
vivi
2020/07/14
4600
Java获取上一周、上一个月、上一年的时间
SimpleDateFormat format = new SimpleDateFormat(“yyyy-MM-dd HH:mm:ss”); Calendar c = Calendar.getInstance(); 1.过去七天 c.setTime(new Date()); c.add(Calendar.DATE, - 7); Date d = c.getTime(); String day = format.format(d); System.out.println(“过去七天:”+day); 2
栗筝i
2022/12/01
1.9K0
案例解读:利用12c渐进式DASH分析"ON CPU"
墨墨导读:本文来自墨天轮读者“Anbob”供稿,分享利用12c渐进式DASH分析"ON CPU"的过程。
数据和云
2021/03/11
5650
MySQL函数大全及用法示例(三)
dayofweek(date) 返回日期date是星期几(1=星期天,2=星期一,……7=星期六,odbc标准) mysql> select dayofweek('1998-02-03');   -> 3 weekday(date) 返回日期date是星期几(0=星期一,1=星期二,……6= 星期天)。 mysql> select weekday('1997-10-04 22:23:00');   -> 5 mysql> select weekday('1997-11-05');   -> 2 dayofmonth(date) 返回date是一月中的第几日(在1到31范围内) mysql> select dayofmonth('1998-02-03');   -> 3 dayofyear(date) 返回date是一年中的第几日(在1到366范围内) mysql> select dayofyear('1998-02-03');   -> 34 month(date) 返回date中的月份数值 mysql> select month('1998-02-03');   -> 2 dayname(date) 返回date是星期几(按英文名返回) mysql> select dayname("1998-02-05");   -> 'thursday' monthname(date) 返回date是几月(按英文名返回) mysql> select monthname("1998-02-05");   -> 'february' quarter(date) 返回date是一年的第几个季度 mysql> select quarter('98-04-01');   -> 2 week(date,first) 返回date是一年的第几周(first默认值0,first取值1表示周一是 周的开始,0从周日开始) mysql> select week('1998-02-20');   -> 7 mysql> select week('1998-02-20',0);   -> 7 mysql> select week('1998-02-20',1);   -> 8 year(date) 返回date的年份(范围在1000到9999) mysql> select year('98-02-03');   -> 1998 hour(time) 返回time的小时数(范围是0到23) mysql> select hour('10:05:03');   -> 10 minute(time) 返回time的分钟数(范围是0到59) mysql> select minute('98-02-03 10:05:03');   -> 5 second(time) 返回time的秒数(范围是0到59) mysql> select second('10:05:03');   -> 3 period_add(p,n) 增加n个月到时期p并返回(p的格式yymm或yyyymm) mysql> select period_add(9801,2);   -> 199803 period_diff(p1,p2) 返回在时期p1和p2之间月数(p1和p2的格式yymm或yyyymm) mysql> select period_diff(9802,199703);   -> 11 date_add(date,interval expr type) date_sub(date,interval expr type) adddate(date,interval expr type) subdate(date,interval expr type) 对日期时间进行加减法运算 (adddate()和subdate()是date_add()和date_sub()的同义词,也 可以用运算符+和-而不是函数 date是一个datetime或date值,expr对date进行加减法的一个表 达式字符串type指明表达式expr应该如何被解释  [type值 含义 期望的expr格式]:  second 秒 seconds
哲洛不闹
2018/09/14
8880
Vue学习笔记之moment.js日期处理控件
moment可以方便的计算自然月或者自然年份,避免使用固定天数或者月份计算导致结束日期错乱问题。
Jetpropelledsnake21
2022/11/12
13.4K0
Vue学习笔记之moment.js日期处理控件
推荐阅读
相关推荐
PAT 1017 Queueing at Bank (25分) prioriry_queue
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验