云计算分布式框架 Hadoop

107课时
2.2K学过
8分

课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
5分钟

HDFS的数据管理

HDFS是分布式计算、分布式存储的基石,HDFS分布式文件系统和其他分布式文件系统有很多类似的特质:

(1)对于整个集群有单一的命名空间;

(2)具有数据一致性,适合一次写入多次读取的模型,客户端在文件没有被成功创建之前是无法感知文件存在的;

(3)文件会被分割成多个文件块,每个文件块分配并存储到数据节点上,而且会根据配置情况由复制文件块来保证数据的安全性。

HDFS文件系统的管理主要通过三个重要的角色来进行:名字节点NameNode、数据节点DataNode和客户端Client。NameNode是分布式文件系统的管理者,它主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode节点将文件系统的 Metadata存储在内存中,MetaData中的信息主要包括文件信息、每一个文件对应的文件块信息和每一个文件块在DataNode中的信息等。 DataNode是文件存储的基本单元,它将文件块(Block)存储在本地文件系统中,保存了所有Block的Metadata,同时周期性地将所有存在的 Block信息发送给NameNode。