云计算分布式框架 Hadoop

10分钟

Hive的体系架构

Hive是一个基于Hadoop的数据仓库，用来进行数据提取、转化和加载，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive数据仓库能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务。Hive的优点是学习成本低，可以通过类似SQL的语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。Hive十分适合数据仓库的统计分析和Windows注册表文件。

Hive体系架构中的用户接口主要包含：CLI（数据库接口）、Client（客户端）和 WUI（Web界面），其中最常用的是 CLI（数据库接口），启动ClL时，同时会启动一个 Hive副本。Client是Hive 的客户端，用户通过客户端连接至Hive Server。在启动Client模式时，需要指出 Hive Server所在的节点，并且在该节点启动Hive Server。WUI就是Web界面，即通过浏览器方式访问 Hive。Hive的体系架构如下图所示。

上一节: HBase的数据管理下一节: Hive的数据管理

目录

评价

推荐

1. Hadoop开源云计算平台

Hadoop开源云计算平台

Hadoop简介

Hadoop的起源

Hadoop的定义

Hadoop支持的开发语言

Hadoop的组成

Hadoop的族群

Hadoop的核心技术是Google核心技术的开源实现

Hadoop的应用现状和发展趋势

Hadoop的企业应用现状

Hadoop的发展趋势调研

企业规模

公司使用Hadoop的主要用途

Hadoop相关技术

Hadoop的发展趋势

看重Hadoop的哪些优点

学习和使用Hadoop的困难

大数据让Hadoop走得更远

2. Hadoop子项目

Hadoop子项目

Core/Common

Avro

HDFS的体系结构

HDFS的设计目标

HDFS结构模型

文件系统的命名空间NameSpace

数据复制与存放

数据的复制

副本的存放

副本选择

安全模式

文件系统元数据的持久化

HDFS的通讯协议

HDFS的数据组织-数据块

数据块的存放

数据块流水线复制

HDFS的可访问性

采用DFSShell访问HDFS

采用DFSAdmin访问HDFS

采用浏览器访问HDFS

MapReduce的体系架构

MapReduce是一种编程模式

MapReduce主要解决的问题

MapReduce编程模式的核心思想

MapReduce与分布式文件系统HDFS的关系

MapReudece

HDFS的数据管理

HBase的数据管理

Hive的体系架构

Hive的数据管理

元数据存储

数据存储

查询计划

3. 项目1：在Windows上安装与配置Hadoop

在Windows上安装与配置Hadoop

任务1：JDK的安装

环境变量的配置

Cygwin的安装

下载Cygwin

任务2：安装Cygwin

Cygwin的环境变量的配置

sshd服务

安装sshd服务

启动sshd服务

配置ssh和登录ssh

任务3：Hadoop的安装与配置

修改Hadoop-env.sh文件

修改core-site.xml文件

修改hdfs-site.xml文件

修改mapred-site.xml

启动Hadoop

4. 项目2：在Linux上安装与配置Hadoop

在Linux上安装与配置Hadoop

任务1：Ubuntu的安装

获得Ubuntu发行版