云计算分布式框架 Hadoop

107课时
2.2K学过
8分

课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
5分钟

HDFS的设计目标

1)检测及快速恢复硬件故障。硬件故障是最常见的问题,整个HDFS系统由成百上千的存储着数据文件的服务器组成,而如此多的服务器意味着高故障率,因此,故障的检测和快速恢复是HDFS的一个核心目标。

2)流式的数据访问。HDFS使应用程序能流式地访问它们的数据集。HDFS被设计成适合进行批量处理,而不是用户交互式的处理。所以它重视数据吞吐量,而不是数据访问的反应速度。

3)简化一致性模型。大部分的HDFS程序操作文件时需要一次写入,多次读取。一个文件一旦经过创建、写入、关闭之后就不需要修改了,从而简化了数据一致性问题和高吞吐量的数据访问问题。

4)移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动到数据附近,比之将数据移动到应用所在显然更好, HDFS提供给应用这样的接口。

5)超大规模数据集。HDFS的一般企业级的文件大小可能都在TB级甚至PB及,支持大文件存储,而且提供整体上高的数据传输带宽,一个单一的HDFS实例应该能支撑数以千万计的文件,并且能在一个集群里扩展到数百个节点。

6)异构软硬件平台间的可移植性。这种特性便于HDFS作为大规模数据应用平台的推广。