Hadoop以数据节点(DN)块的形式保存文件,有关文件的元数据保存到namenodes(NN)中。每当客户端读取任何文件时,NN都会发送一个读取管道(DNs列表),从其中获取文件块。读取管道由最近的 DNs (w.r.t客户端)组成,用于服务读取请求。
我很想知道NN如何为文件块保存关于DN的信息。我是说数据结构。它是一个包含
例如,我在HDFS中有一个1GB文件,如下所示EVENT INFORMATION ANOTHER EVENT INFORMATION何时何地将这个1GB文件转换为InputSplits?hadoop如何处理不同的分裂逻辑?它是否需要解析整个文件来创建拆分(因为我们需要遍历这个文件来逐行计数)?该文件在HDFS中分为8个块(1024 / 128)。因此,当我提交作业时,hadoop在每个节点上启动映