云计算分布式框架 Hadoop

107课时
2.2K学过
8分

课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
5分钟

Hadoop的族群

整个Hadoop族群中包括很多项目,如下所述。

(1)HDFS:分布式文件系统,是GFS的开源实现。

(2)MapReduce:分布式并行编程模型和程序执行框架,是Google公司MapReduce的开源实现。

(3)Common:整个Hadoop项目的核心,包括一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。

(4)Avro:一种支持高效、跨语言的RPC及永久存储数据的序列化实现。

(5)Pig:一种数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。

(6)Hive:一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并可基于SQL(由运行时引擎翻译成MapReduce作业)来查询数据。

(7)HBase:一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。

(8)Mahout:一个在Hadoop上运行的机器学习类库。

(9)ZooKeeper:一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务,用于构建分布式应用。

(10)Cassandra:一套开源分布式NoSQL数据库系统,它最初由Facebook开发,用于存储收件箱等简单格式的数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。