如何编译及使用hive-testbench生成Hive基准测试数据

Fayson

修改于 2018-04-01 18:19:52

5.2K2

修改于 2018-04-01 18:19:52

文章被收录于专栏：Hadoop实操

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢

1.文档编写目的

前面Fayson介绍了《如何编译及使用TPC-DS生成测试数据》，在本篇文章Fayson主要介绍GitHub上的一个开源的项目hive-testbench，该项目主要基于TPC-DS进行封装利用MapReduce的方式快速的生成Hive基准测试数据，本篇文章主要介绍如何编译及使用hive-testbench生成指定数据量的Hive基准测试数据。

内容概述：

1.环境准备及编译hive-testbench

2.生成并加载数据

3.总结

测试环境：

1.RedHat7.3

2.采用root用户操作

2.环境准备

从GitHub官网clone hive-testbench源码，Git地址如下：

https://github.com/hortonworks/hive-testbench.git

（可左右滑动）

下载至本地目录

[root@ip-172-31-16-68 ~]# git clone https://github.com/hortonworks/hive-testbench.git

（可左右滑动）

2.安装hive-testbench编译依赖环境

[root@ip-172-31-16-68 ~]# yum -y install gcc gcc-c++

（可左右滑动）

3.编译并打包hive-testbench

这里Fayson只是用TPC-DS，所以主要介绍编译TPC-DS，TPC-H的编译方式一样只是使用的脚本为tpch-build.sh，在编译的过程中需要下载Maven和TPC-DS或TPC-H的源码工程，所以该编译节点需要有访问互联网的权限。

[root@ip-172-31-16-68 ~]# cd hive-testbench/
[root@ip-172-31-16-68 hive-testbench]# ll

（可左右滑动）

2.在hive-testbench目录下执行如下脚本进行编译打包

[root@ip-172-31-16-68 hive-testbench]# ./tpcds-build.sh

（可左右滑动）

3.等待编译结束，如下显示则表示编译成功

至此已完成hive-testbench的编译

4.生成并加载数据

1.在hive-testbench目录下执行如下脚本生成并加载测试数据

[root@ip-172-31-16-68 hive-testbench]# ./tpcds-setup.sh 10 /extwarehouse/tpcds

（可左右滑动）

参数说明：

10表示生成的数据量大小GB单位

/extwarehouse/tpcds表数据数据生成的目录，目录不存在自动生成，如果不指定数据目录则默认生成到/tmp/tpcds目录下。

由上图可以看到生成数据的方式是向集群提交了一个MapReduce作业，使用这种方式生成测试数据会比前面Fayson介绍的《如何编译及使用TPC-DS生成测试数据》效率高。

2.等待脚本执行成功

有如上图显示则表示脚本执行成功，成功生成了测试数据并创建了tpcds_text_10和tpcds_bin_partitioned_orc_10两个数据库。

3.在命令行查看HDFS上的数据是否与我们指定的量一致

数据总量与指定10GB数据量一致（注意：这里生成数据会与指定的量有一些出入）

各个表大小

4.通过Hue验证生成的测试数据

可以看到生成了两个数据库分别为tpcds_text_10和tpcds_bin_partitioned_orc_10两个库。

生成了测试用的所有表，并将数据load到相应的表中

5.总结

在编译hive-testbench项目时需要有外网环境，在编译的过程会下载Maven的安装包、下载Maven依赖以及TPC-DS的源码在后面的文章Fayson会结合真实环境通过脚本的方式运行TPC-DS的99条SQL来做Hive、Impala、Presto等服务的基准测试。

参考：

https://github.com/hortonworks/hive-testbench

提示：代码块部分可以左右滑动查看噢为天地立心，为生民立命，为往圣继绝学，为万世开太平。温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操，第一时间，分享更多Hadoop干货，欢迎转发和分享。

原创文章，欢迎转载，转载请注明：转载自微信公众号Hadoop实操

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-03-12，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 Hadoop实操微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

如何编译及使用hive-testbench生成Hive基准测试数据

如何编译及使用hive-testbench生成Hive基准测试数据

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐