前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MongoDB之mongoexport工具

MongoDB之mongoexport工具

作者头像
AsiaYe
发布2021-03-13 22:14:42
2.4K0
发布2021-03-13 22:14:42
举报
文章被收录于专栏:DBA随笔

今天线上环境遇到一个需求,需要把分片集群中指定集合中的3个字段导出来。

这个需求比较明显,要使用mongoexport,借这个机会,熟悉了一下这个工具。

01 基本介绍

mongoexport是一个数据导出的工具,使用的时候类似mysql中的select into outfile语法,可以将某个数据库中的数据以json或者csv的格式导出来。

我们可以通过直接连接mongos或者连接mongod来导出数据。如果你的集群是分片集群,连接mongos会导出所有分片上这个集合的相关数据。

02 常用参数

-h:指明数据库宿主机的IP

-u:指明数据库的用户名

-p:指明数据库的密码

-d:指明数据库的名字

-c:指明collection的名字

-f:指明要导入那些列

--type:默认是json类型,可以导出csv类型

-o:指明要导出的文件名称,如果不指定,则导出到标准输出

-q:查询过滤器,可以输入一个json,从而导出查询后的结果

上面的常用参数还有对应的长参数选项,例如-h也可以输入--host代替。参数的详细介绍,可以通过mongoexport --help获取到。

03 命令

1、导出数据库new下面的test集合的number字段,命令如下:

代码语言:javascript
复制
mongoexport --port=27016 -u "yeyz" --authenticationDatabase "admin" -p "123456" -d new -c test --fields=number -o /data/test.json
2021-02-23T22:09:52.481+0800    connected to: localhost:27016
2021-02-23T22:09:52.512+0800    exported 2000 records

我们看下导出的结果:

代码语言:javascript
复制
{"_id":{"$oid":"6006c46993a711b384cc8c92"},"number":1000.0}
{"_id":{"$oid":"6006c46993a711b384cc8c93"},"number":1001.0}
{"_id":{"$oid":"6006c46993a711b384cc8c94"},"number":1002.0}
{"_id":{"$oid":"6006c46993a711b384cc8c95"},"number":1003.0}
{"_id":{"$oid":"6006c46993a711b384cc8c96"},"number":1004.0}
{"_id":{"$oid":"6006c46993a711b384cc8c97"},"number":1005.0}
{"_id":{"$oid":"6006c46993a711b384cc8c98"},"number":1006.0}
{"_id":{"$oid":"6006c46993a711b384cc8c99"},"number":1007.0}
{"_id":{"$oid":"6006c46993a711b384cc8c9a"},"number":1008.0}
{"_id":{"$oid":"6006c46993a711b384cc8c9b"},"number":1009.0}
{"_id":{"$oid":"6006c46993a711b384cc8c9c"},"number":1010.0}
{"_id":{"$oid":"6006c46993a711b384cc8c9d"},"number":1011.0}
{"_id":{"$oid":"6006c46993a711b384cc8c9e"},"number":1012.0}

可以看到,即使我们只指定了number字段,也会自动为我们导出_id字段,由此可以得出结论,:如果导出的格式是json类型的,_id字段是默认导出的。

默认导出的类型是json类型,如果我们想导出csv类型,可以增加--type=csv参数。添加了这个参数之后,结果如下:

代码语言:javascript
复制
number
1000
1001
1002
1003
1004
1005
1006
1007
1008
1009
1010
1011

可以看到,就不会自动的输出_id这个字段了。这个可能也是一个值得讨论的点。我认为可能是这个工具的一个小bug,csv类型不输出_id字段,而json类型输出_id字段。

2、导出某个特定的查询结果,例如导出number=10的那条记录:

代码语言:javascript
复制
[root@VM-0-14-centos ~]# mongoexport --port=27016 -u "yeyz" --authenticationDatabase "admin" -p "123456" -d new -c test --type=csv -q {"number":10} --fields=number -o /data/test.json  
2021-02-23T22:38:18.319+0800    connected to: localhost:27016
2021-02-23T22:38:18.321+0800    exported 1 record

可以直接在-q参数后面跟查询条件。

04 经验值

今天的操作是在分片集群上进行操作的,一共7个分片,我导出了3亿多条数据,单个分片上大概5000w条数据吧,每条数据导出2个字段,每个分片上的导出时间大约在2个小时左右。

机器硬件配置:

SATA硬盘4TB

普通内存128G

intel 至强E5-4系列

当然,这个值只是个经验值,如果你的导出的字段比较多的话,或者字段的长度比较长,可能这个值没有太多的参考意义。

在实际进行数据导出的时候,发现执行导出的mongodb服务器负载有一定上升,内存使用率有一定上升,但是没有特别明显性能抖动,整个过程不会锁数据库,所以还是比较安全的。

线上操作的时候,尤其是针对敏感的业务,为了最大程度上降低对业务的影响,如果你是在mongos上执行数据导出,建议先保证这个mongos对业务不可见,执行导出之后,在重新对外提供服务;如果你是在mongod上进行数据导出,则最好选择secondary节点进行,避免对线上业务的影响。

05 反向导入

mongodb还有一个工具,叫mongoimport,可以将mongoexport导出的数据导入到mongodb数据库中,下面是一个mongoimport的命令:

代码语言:javascript
复制
[root@VM-0-14-centos ~]# mongoimport --port=27016 -u "yeyz" --authenticationDatabase "admin" -p "123456" -d new -c test1 --type=csv   --fields=number --file=/data/test.csv
2021-02-23T22:44:21.930+0800    connected to: localhost:27016
2021-02-23T22:44:22.146+0800    imported 2001 documents

mongoimport的整个操作类似insert操作,参数方面和mongoexport大同小异,唯一多的比较重要的参数就是writeconcern的值,这个值设置的级别越高,那么导出数据的时间就越慢,但是数据安全性会越高。

详细内容请看官方文档对writeconcern的描述。

今天的内容就到这里。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DBA随笔 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 基本介绍
  • 02 常用参数
  • 03 命令
  • 04 经验值
  • 05 反向导入
相关产品与服务
云数据库 MongoDB
腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档