Hive简介
Hive是一个在Hadoop中用来处理结构化数据数据仓库基础工具。它是建立在Hadoop之上的数据仓库基础架构,总归为大数据,并使得查询和分析方便。
Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。
Hive的特点
它存储架构在一个数据库中并处理数据到HDFS。
它是专为OLAP设计。
它提供SQL类型语言查询叫HiveQL或HQL。
它是熟知,快速,可扩展和可扩展的。
Hive架构
Hive利用HDFS存储数据,利用MapReduce查询数据。
Hive安装部署
Hive版本:
MySQL地址:
安装条件:
Hive安装在Hadoop集群上,并Hadoop集群已启动
MySQL已安装并已启动
下载并安装Hive:
从Hive官网 下载Hive
通过 命令将Hive安装包 上传到/home/fwj/目录
解压安装
配置Hive环境变量
配置MySQL:
下载MySQL驱动:
上传 的驱动到HIVE_HOME/lib目录下
登录MySQL,创建数据库hive:
配置Hive的hive-site.xml
hive-site.xml文件:
初始化Hive:
从 Hive 2.1 版本开始, 我们需要先运行 schematool 命令来执行初始化操作:
输入 命令进入, 可退出
初始化Hive后,在MySQL可以看到生成的表:
使用Hive搭建数据仓库
1、创建数据仓库
2、创建表
external:创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)
创建表成功后,可以在HDFS看到school目录:
3、测试文件
将students.txt上传到HDFS的school目录下:
students.txt:
4、查询所有数据
4、统计同名
这时会启动一个作业,执行MapReduce过程。
参考
Hive官方地址
hive2.1.1 部署安装
领取专属 10元无门槛券
私享最新 技术干货