5分钟
HDFS的数据管理
HDFS是分布式计算、分布式存储的基石,HDFS分布式文件系统和其他分布式文件系统有很多类似的特质:
(1)对于整个集群有单一的命名空间;
(2)具有数据一致性,适合一次写入多次读取的模型,客户端在文件没有被成功创建之前是无法感知文件存在的;
(3)文件会被分割成多个文件块,每个文件块分配并存储到数据节点上,而且会根据配置情况由复制文件块来保证数据的安全性。
HDFS文件系统的管理主要通过三个重要的角色来进行:名字节点NameNode、数据节点DataNode和客户端Client。NameNode是分布式文件系统的管理者,它主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode节点将文件系统的 Metadata存储在内存中,MetaData中的信息主要包括文件信息、每一个文件对应的文件块信息和每一个文件块在DataNode中的信息等。 DataNode是文件存储的基本单元,它将文件块(Block)存储在本地文件系统中,保存了所有Block的Metadata,同时周期性地将所有存在的 Block信息发送给NameNode。
学员评价