Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Greenplum常用导数据方法及性能测试

Greenplum常用导数据方法及性能测试

原创
作者头像
小徐
修改于 2021-05-08 02:09:16
修改于 2021-05-08 02:09:16
4.4K3
举报
文章被收录于专栏:GreenplumGreenplum

COPY 导入数据方法

1、生成数据文件

2、替换分隔符

2.1 使用gpadmin用户COPY数据到Greenplum中

2.2使用非gpadmin用户COPY数据到Greenplum中

3、查看效果

4、查看官网说明

5、Shell脚本导入数据

6、性能总结

6.1千兆网卡的性能总结

6.1.1 数据量的大小

6.1.2 查看数据的内容

6.1.3 开始导数据

6.1.4 查看表的详细信息

6.2  万兆网卡的性能总结

6.2.1 数据量的大小

6.2.2 查看数据的内容

6.2.3 开始导数据

6.2.4 查看表的详细信息

6.2.5 查看表的字段信息

6.3 监控信息

6.3.1 主节点网卡信息

6.3.2 主节点的磁盘读写信息

6.3.3 主节点的CPU使用率信息

6.3.4 数据节点网卡信息

6.3.5 数据节点的磁盘读写信息

6.3.6 数据节点的CPU使用率信息

COPY 导出数据方法

1 查看表中的数据文件

2 导出CSV数据文件

3 查看导出的数据格式

COPY 导入数据方法

1、生成数据文件

$ cat source.txt

11111ddd22222

2、替换分隔符

2.1 使用gpadmin用户COPY数据到Greenplum中

$ cat replaceScript.sh

#!/bin/sh

# 生成隐藏字符 soh=`echo 1 | awk '{printf("%c", $1)}'` replaceWord=$1

# 替换开始 sed -i 's/'$replaceWord'/'$soh'/g'  $2

# 插入到greenplum数据库 cd /greenplum/soft/greenplum-db-5.8.0/bin ./psql -d ***** -h 192.168.***.*** -p 5432 -U gpadmin -c "COPY xiaoxu_test.xiaoxu_test  FROM '/home/xiaoxu/gpload_test/$2' WITH csv DELIMITER E'\001'  LOG ERRORS SEGMENT REJECT LIMIT 3000 ROWS";

标红的部分最好不用,这样可以确保数据的准确性。

E'\001' : 是ascii分隔符,详情请查看:https://blog.csdn.net/xfg0218/article/details/80901752

2.2使用非gpadmin用户COPY数据到Greenplum中

安装psql命令

#yum install postgresql -y

psql -d ***** -h 192.168.***.** -p 5432 -U gpadmin -c "\\COPY xiaoxu_test.xiaoxu_test  FROM '/home/xiaoxu/gpload_test/$2' WITH csv DELIMITER E'\001'  LOG ERRORS SEGMENT REJECT LIMIT 3000 ROWS";

注意\\的问题

3、查看效果

$ sh psqlInsert.sh  ddd   source.txt COPY 1

ddd: 是分隔符

source.txt:带有分隔符的文件

4、查看官网说明

http://postgresql.ru.net/manual/sql-copy.html

5、Shell脚本导入数据

#  vi copyToGreenplum.sh

#!bin/sh

# 获取为文件所在的位置 basepath=$(cd `dirname $0`; pwd)

# scheam名字 scheamname='xiaoxu_test'

# 表名字 tablename='enterprisebaseinfocollect_out_20180812'

# 数据库名字 gpdatabase='******'

# gp服务器ip gpip='192.168.*****.****'

#gp port gpport='5432'

# gp user gpuser='gpadmin'

# 需要插入的文件的名字 dirfilename='mv_enterprisebaseinfo_20180812.csv'

# 替换双引号与隐藏字符 # sh asciiReplaceScriptAll.sh

# gp copy 开始时间 gpinsert_time=`date +'%Y-%m-%d %H:%M:%S'`

echo -e "GP COPY 数据开始...."

# 执行插入操作 psql -d $gpdatabase -h $gpip -p $gpport -U $gpuser -c "COPY $scheamname.$tablename FROM '$basepath/$dirfilename' WITH csv DELIMITER E'\001'";

# gp copy 结束时间

gpinsert_endtime=`date +'%Y-%m-%d %H:%M:%S'` gpinsert_start_seconds=$(date --date="$gpinsert_time" +%s) gpinsert_ent_seconds=$(date --date="$gpinsert_endtime" +%s) time_of_use=$((end_seconds-start_seconds))

echo -e "\t $((time_of_use/3600)) h $((time_of_use%3600/60)) m $((time_of_use%3600%60)) s"

6、性能总结

6.1千兆网卡的性能总结

6.1.1 数据量的大小

$ du -sh mv_enterprisebaseinfo_20180812.csv 130G mv_enterprisebaseinfo_20180812.csv

6.1.2 查看数据的内容

$ head -n 1 mv_enterprisebaseinfo_20180812.csv 310000645D0435BED45B39E0531ECDA8C0463F2018020413595200008546上海佐洽房地产经纪有限公司闵行第一分公司3101120018106392151K7032018-02-02 00:00:00200000150214137361900-01-01 00:00:002018-02-02 00:00:002018-02-02 00:00:0031011210房地产经纪,房地产信息咨询,商务信息咨询,设计、制作、代理、发布各类广告,市场信息咨询与调查(不得从事社调查、社会调研、民意调查、民意测验),物业管理,票务代理,会务服务,翻译服务,企业管理咨询,接受隶属企业委托从事相关业务,从事计算机科技领域内的技术开发、技术转让、技术咨询、技术务,办公用品、日用百货的销售。。【依法须经批准的项目,经相关部门批准后方可开展经营活动000000000001900-01-01 00:00:0002018-08-08 09:54:29.000000,E20180204,E20180205,E20180206,E20180207,E20180212,E20180718,E2015030410e635326b318d6881ca0214c0831e6e65P01MA1GBWMN991310112MA1GBWMN9972E3B618BF6B3365E0531ECDA8C05E49E20150304D9FC431BDDA2CF143DDB0A89F76036F7闵行区市场监督管理局1存续(在营、开业、在册)有限责任公司分公司自然人独资

6.1.3 开始导数据

$ sh copyToGreenplum.sh GP COPY 数据开始.... COPY 90700000 GP COPY 总耗时: 2 小时 32 分钟 8 秒

$ sh copyToGreenplum.sh GP COPY 数据开始.... o0COPY 90700000 GP COPY 总耗时: 2 小时 54 分钟 35 秒

$ sh copyToGreenplum.sh GP COPY 数据开始.... o0COPY 90700000 GP COPY 总耗时: 2 小时 46 分钟 35 秒

6.1.4 查看表的详细信息

select count(*) from enterprisebaseinfocollect_out_20180812; 2,7210,0000 select pg_size_pretty(pg_relation_size('enterprisebaseinfocollect_out_20180812')) 137 GB

1 s_ext_nodenum varchar, 2 pripid varchar, 3 s_ext_sequence varchar, 4 entname varchar, 5 oriregno varchar, 6 regno varchar, 7 enttype varchar, 8 ppripid varchar, 9 pentname varchar, 10 pregno varchar, 11 hypotaxis varchar, 12 industryphy varchar, 13 industryco varchar, 14 abuitem varchar, 15 cbuitem varchar, 16 opfrom varchar, 17 opto varchar, 18 postalcode varchar, 19 tel varchar, 20 email varchar, 21 localadm varchar, 22 credlevel varchar, 23 assdate varchar, 24 esdate varchar, 25 apprdate varchar, 26 regorg varchar, 27 entcat varchar, 28 entstatus varchar, 29 regcap varchar, 30 opscope varchar, 31 opform varchar, 32 opscoandform varchar, 33 ptbusscope varchar, 34 domdistrict varchar, 35 dom varchar, 36 ecotecdevzone varchar, 37 domproright varchar, 38 oplocdistrict varchar, 39 oploc varchar, 40 reccap varchar, 41 insform varchar, 42 parnum varchar, 43 parform varchar, 44 exenum varchar, 45 empnum varchar, 46 sconform varchar, 47 forcapindcode varchar, 48 midpreindcode varchar, 49 protype varchar, 50 congro varchar, 51 congrocur varchar, 52 congrousd varchar, 53 regcapusd varchar, 54 regcapcur varchar, 55 regcaprmb varchar, 56 forregcapcur varchar, 57 forregcapusd varchar, 58 forreccapusd varchar, 59 worcap varchar, 60 chamecdate varchar, 61 opracttype varchar, 62 forentname varchar, 63 depincha varchar, 64 country varchar, 65 itemofoporcpro varchar, 66 conofcontrpro varchar, 67 fordom varchar, 68 forregecap varchar, 69 foropscope varchar, 70 s_ext_entproperty varchar, 71 s_ext_timestamp varchar, 72 s_ext_batch varchar, 73 s_ext_validflag varchar, 74 s_ext_induscat varchar, 75 s_ext_enttype varchar, 76 manacate varchar, 77 limparnum varchar, 78 foreignbodytype varchar, 79 entname_old varchar, 80 person_id varchar, 81 name varchar, 82 certype varchar, 83 ancheyear varchar, 84 candate varchar, 85 revdate varchar, 86 licid varchar, 87 credit_code varchar, 88 entid varchar, 89 jobid varchar, 90 tax_code varchar, 91 zspid varchar, 92 regorgdisplay varchar, 93 handle_type varchar , 94 is_new varchar , 95 countrydisplay varchar , 96 statusdisplay varchar , 97 typedisplay varchar, 98 regcapcurdisplay varchar

6.2  万兆网卡的性能总结

6.2.1 数据量的大小

$ du -sh mv_enterprisebaseinfo_20180812.csv  130G mv_enterprisebaseinfo_20180812.csv

6.2.2 查看数据的内容

$ head -n 1 mv_enterprisebaseinfo_20180812.csv  310000645D0435BED45B39E0531ECDA8C0463F2018020413595200008546上海佐洽房地产经纪有限公司闵行第一分公司3101120018106392151K7032018-02-02 00:00:00200000150214137361900-01-01 00:00:002018-02-02 00:00:002018-02-02 00:00:0031011210房地产经纪,房地产信息咨询,商务信息咨询,设计、制作、代理、发布各类广告,市场信息咨询与调查(不得从事社调查、社会调研、民意调查、民意测验),物业管理,票务代理,会务服务,翻译服务,企业管理咨询,接受隶属企业委托从事相关业务,从事计算机科技领域内的技术开发、技术转让、技术咨询、技术务,办公用品、日用百货的销售。。【依法须经批准的项目,经相关部门批准后方可开展经营活动000000000001900-01-01 00:00:0002018-08-08 09:54:29.000000,E20180204,E20180205,E20180206,E20180207,E20180212,E20180718,E2015030410e635326b318d6881ca0214c0831e6e65P01MA1GBWMN991310112MA1GBWMN9972E3B618BF6B3365E0531ECDA8C05E49E20150304D9FC431BDDA2CF143DDB0A89F76036F7闵行区市场监督管理局1存续(在营、开业、在册)有限责任公司分公司自然人独资

6.2.3 开始导数据

$ time psql -d stagging -h 192.168.****.**** -p 5432 -U gpadmin -c "COPY xiaoxu.enterprisebaseinfocollect_out_20180814 FROM '/home/xiaoxu/greenplum-load-data/oracle-export-greenplum/mv_enterprisebaseinfo_20180812.csv' WITH csv DELIMITER E'\001' LOG ERRORS SEGMENT REJECT LIMIT 3000 ROWS" COPY 90700000

real 22m13.116s user 0m0.003s sys 0m0.002s

6.2.4 查看表的详细信息

select pg_size_pretty(pg_relation_size('enterprisebaseinfocollect_out_20180812'))  137 GB

select count(*) from enterprisebaseinfocollect_out_20180812; 2,7210,0000

分布键详细信息

select gp_segment_id,count(1) from enterprisebaseinfocollect_out_20180814 group by 1;

6.2.5 查看表的字段信息

1 s_ext_nodenum varchar, 2 pripid varchar, 3 s_ext_sequence varchar, 4 entname varchar, 5 oriregno varchar, 6 regno varchar, 7 enttype varchar, 8 ppripid varchar, 9 pentname varchar, 10 pregno varchar, 11 hypotaxis varchar, 12 industryphy varchar, 13 industryco varchar, 14 abuitem varchar, 15 cbuitem varchar, 16 opfrom varchar, 17 opto varchar, 18 postalcode varchar, 19 tel varchar, 20 email varchar, 21 localadm varchar, 22 credlevel varchar, 23 assdate varchar, 24 esdate varchar, 25 apprdate varchar, 26 regorg varchar, 27 entcat varchar, 28 entstatus varchar, 29 regcap varchar, 30 opscope varchar, 31 opform varchar, 32 opscoandform varchar, 33 ptbusscope varchar, 34 domdistrict varchar, 35 dom varchar, 36 ecotecdevzone varchar, 37 domproright varchar, 38 oplocdistrict varchar, 39 oploc varchar, 40 reccap varchar, 41 insform varchar, 42 parnum varchar, 43 parform varchar, 44 exenum varchar, 45 empnum varchar, 46 sconform varchar, 47 forcapindcode varchar, 48 midpreindcode varchar, 49 protype varchar, 50 congro varchar, 51 congrocur varchar, 52 congrousd varchar, 53 regcapusd varchar, 54 regcapcur varchar, 55 regcaprmb varchar, 56 forregcapcur varchar, 57 forregcapusd varchar, 58 forreccapusd varchar, 59 worcap varchar, 60 chamecdate varchar, 61 opracttype varchar, 62 forentname varchar, 63 depincha varchar, 64 country varchar, 65 itemofoporcpro varchar, 66 conofcontrpro varchar, 67 fordom varchar, 68 forregecap varchar, 69 foropscope varchar, 70 s_ext_entproperty varchar, 71 s_ext_timestamp varchar, 72 s_ext_batch varchar, 73 s_ext_validflag varchar, 74 s_ext_induscat varchar, 75 s_ext_enttype varchar, 76 manacate varchar, 77 limparnum varchar, 78 foreignbodytype varchar, 79 entname_old varchar, 80 person_id varchar, 81 name varchar, 82 certype varchar, 83 ancheyear varchar, 84 candate varchar, 85 revdate varchar, 86 licid varchar, 87 credit_code varchar, 88 entid varchar, 89 jobid varchar, 90 tax_code varchar, 91 zspid varchar, 92 regorgdisplay varchar, 93 handle_type varchar , 94 is_new varchar , 95 countrydisplay varchar , 96 statusdisplay varchar , 97 typedisplay varchar, 98 regcapcurdisplay varchar

6.3 监控信息

6.3.1 主节点网卡信息

6.3.2 主节点的磁盘读写信息

6.3.3 主节点的CPU使用率信息

6.3.4 数据节点网卡信息

6.3.5 数据节点的磁盘读写信息

6.3.6 数据节点的CPU使用率信息

COPY 导出数据方法

1 查看表中的数据文件

2 导出CSV数据文件

$ psql -d **** -h 192.168.*****.**** -p 5432 -U gpadmin -c "copy datafix.xiaoxu_df_entname to '/home/xiaoxu/shujudingzheng/data-dir/entname.csv' WITH DELIMITER AS E'\u0001' " COPY 11807

3 查看导出的数据格式

$ head -n 3 entname.csv 11000020e38b8c4353938c014370906a7e0004中赣核(北京)投资发展有限公司 440000440125125021998031700074许村龙渡电镀厂 440000P-4da509af-be89-4ef8-b24a-4a4e97a96b57海宁市许巷乡郭湾村房屋装潢服务部

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
3 条评论
热度
最新
大佬 请问6.3里做监控是用的什么软件?
大佬 请问6.3里做监控是用的什么软件?
11点赞举报
https://ymatrix.cn/doc/4.4/monitor/deploy_monitor可以使用我们数据库的监控面板
https://ymatrix.cn/doc/4.4/monitor/deploy_monitor可以使用我们数据库的监控面板
回复回复点赞举报
主要把使用Greenplum的经验整理出来,以便大家能够快速使用Greenplum
主要把使用Greenplum的经验整理出来,以便大家能够快速使用Greenplum
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
greenplum gptransfer命令使用
12.2 gptransfer命令使用 12.2.1 gptransfer 介绍 详细请查看官网介绍: https://gpdb.docs.pivotal.io/510/utility_guide/admin_utilities/gptransfer.html 或查看中文文档: https://gp-docs-cn.github.io/docs/admin_guide/managing/gptransfer.html 12.2.2 gptransfer 命令参数介绍 gptransfer参数详细介绍请查看:
小徐
2019/05/17
1.1K0
greenplum gptransfer命令使用
Greenplum数据库使用总结(干货满满)--常见创建TABLE方式
create table test_head(id int primary key) distributed by (id);
小徐
2019/08/05
3.1K0
Greenplum数据库使用总结(干货满满)--常见创建TABLE方式
Greenplum高级使用
stagging=#  select gp_segment_id,count(1) from  tablename  group by 1;
小徐
2019/01/28
1.6K1
Greenplum高级使用
mxgate是gpcopy同步速度的2倍
1、检查greenplum和matrix的版本信息时候一致,因为gpcopy会校验版本
小徐
2021/10/27
8710
mxgate是gpcopy同步速度的2倍
Greenplum 实时数据仓库实践(9)——Greenplum监控与运维
想要一个数据库长久健康的运行,离不开完备的运维工作,切忌只运而不维。针对Greenplum分布式数据库,集群由大量服务器组成,对运维人员或DBA,不仅要关注数据库本身,还要注意集群中各硬件的状况,及时发现并处理问题。本篇介绍权限与角色管理、数据导入导出、性能优化、例行监控、例行维护、推荐的监控与维护任务六方面常规工作内容,目标是满足Greenplum系统维护、使用等方面的要求,保证提供稳定高效的数据库服务。
用户1148526
2022/04/13
4.1K0
greenplum链接kafka写入与导出数据
15 Greenplum 外接工具 15.1 安装kafka 15.1.1 安装kafka 安装教程请查看:https://www.jianshu.com/p/9d48a5bd1669 15.1.2 准备kafka的环境 创建topic # bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic topic_for_gpkafka 查看topic 集合 $
小徐
2019/10/17
1.2K0
greenplum链接kafka写入与导出数据
Greenplum链接kafka导入与导出数据
15 Greenplum 外接工具 1 15.1 安装kafka 1 15.1.1 安装kafka 1 15.1.2 准备kafka的环境 1 15.2 greenplum外表加载kafka数据 2 15.2.1 准备测试数据 2 15.2.2 编写加载kafka文件 2 15.2.3 创建数据库表 3 15.2.4 使用gpkafka命令插入数据 4 15.2.5 查看数据库保存的偏移量 5 15.2.6 测试复杂数据量的性能 5 15.2.6.1 测试数据 5 152.6.2 查看数据库数据 7 15.
小徐
2019/10/22
1.5K0
Greenplum链接kafka导入与导出数据
Greenplum集群扩容总结
5.1.4 文件修改/etc/security/limits.d/90-nproc.conf(针对RedHat6.x系统) 6
小徐
2020/10/09
2.7K1
Greenplum集群扩容总结
Greenplum数据库使用总结(干货满满)--高级使用
stagging=# select gp_segment_id,count(1) from tablename group by 1;
小徐
2019/08/05
3.9K0
Greenplum 集群性能测试
114.112.77.199 master、segment 210.73.209.103 standby master、segment 140.210.73.67 segment
用户1148526
2021/12/07
7850
Greenplum测试环境部署
本实例是部署实验环境,采用的是Citrix的虚拟化环境,分配了3台RHEL6.4的主机。
Alfred Zhao
2019/05/24
1.8K0
RH7.9安装部署GreenPlum 6
1、系统版本:redhat7.9 2、硬件:3台虚拟机,2核,16G内存,50G硬盘 3、实验节点规划一个master, 4个segment,4个mirror,无standby
Lucifer三思而后行
2021/08/17
7850
Greenplum基于pgbench的性能测试
https://github.com/gregs1104/pgbench-tools
洛杉矶
2019/01/23
3.1K0
Greenplum基于pgbench的性能测试
Greenplum gpload命令使用
Runs a load job as defined in a YAML formatted control file.
小徐
2018/12/20
2.9K0
Greenplum  gpload命令使用
GreenPlum装载和卸载工具(外部表、gpfdist、gpload等)
在创建外部表定义时,必须指定文件格式和文件位置 三种用来访问外部表数据源的协议:gpfdist, gpfdists和gphdfs
AiDBA宝典
2023/11/01
2K0
GreenPlum装载和卸载工具(外部表、gpfdist、gpload等)
Snova基础篇(三):Greenplum集群初始化问题及调试
gpinitsystem 的日志文件。默认路径为 ~/gpAdmin/gpinitsystem_***
snova-最佳实践
2019/12/20
1.8K0
Snova基础篇(三):Greenplum集群初始化问题及调试
Greenplum数据库使用总结(干货满满)--pg_dump命令使用
Greenplum 支持逻辑备份。我们使用Greenplum自带的pg_dump命令实现逻辑备份功能,导出备份文件,再通过 psql 导入到Greenplum中,达到备份的效果。
小徐
2019/08/05
3K0
greenplum_exporter监控Greenplum
8.2 Node Exporter for Prometheus Dashboard 19
小徐
2021/05/11
2.8K0
greenplum_exporter监控Greenplum
Greenplum使用TPC-H测试过程及结果
TPC-H 基准测试是由 TPC-D(由 TPC 组织于 1994 年指定的标准,用于决策支持系统方面的测试基准)发展而来的.TPC-H 用 3NF 实现了一个数据仓库,共包含 8 个基本关系,其数据量可以设定从 1G~3T 不等。TPC-H 基准测试包括 22 个查询(Q1~Q22),其主要评价指标是各个查询的响应时间,即从提交查询到结果返回所需时间.TPC-H 基准测试的度量单位是每小时执行的查询数( QphH@size),其中 H 表示每小时系统执行复杂查询的平均次数,size 表示数据库规模的大小,它能够反映出系统在处理查询时的能力.TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数.总而言之,TPC 组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限。
小徐
2018/09/20
5.2K0
Greenplum使用TPC-H测试过程及结果
GreenPlum管理数据库
在后备Master主机上,移动或者移除数据目录gpseg-1。这个例子移动该目录:
AiDBA宝典
2023/11/16
4560
GreenPlum管理数据库
相关推荐
greenplum gptransfer命令使用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档