首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

快速学习-DataNode

第6章 DataNode(面试开发重点) 6.1 DataNode工作机制 DataNode工作机制,如图3-15所示。 ?...3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。...同理DataNode节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢? 如下是DataNode节点保证数据完整性的方法。...3)Client读取其他DataNode上的Block。 4)DataNode在其文件创建后周期验证CheckSum,如图3-16所示。 ? 6.3 掉线时限参数设置 ?...6.6 Datanode多目录配置 DataNode也可以配置成多个目录,每个目录存储的数据不一样。

62820
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Hadoop框架:DataNode工作机制详解

    DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度、校验、时间戳; DataNode启动后向NameNode服务注册,并周期性的向NameNode上报所有的数据块元数据信息...; DataNode与NameNode之间存在心跳机制,每3秒一次,返回结果带有NameNode给该DataNode的执行命令,例如数据复制删除等,如果超过10分钟没有收到DataNode的心跳,则认为该节点不可用...基本步骤 基于当前一个服务节点克隆得到hop04环境; 修改Centos7相关基础配置,并删除data和log文件; 启动DataNode,即可关联到集群; 4、多目录配置 该配置同步集群下服务,格式化启动... dfs.datanode.data.dir file:///${hadoop.tmp.dir}/dfs/data01,file...rmadmin -refreshNodes 三、文件存档 1、基础描述 HDFS存储的特点,适合海量数据的大文件,如果每个文件都很小,会产生大量的元数据信息,占用过多的内存,并且在NaemNode和DataNode

    63020

    Hadoop NameNode、DataNode热迁移方案

    最近我们生产环境的Hadoop集群需要调整几台服务器,具体转换关系如下: datanode92.bi -> namenode02.bi namenode01.bi(old) -> datanode19....bi namenode02.bi -> datanode20.bi 最终目标为: 将datanode92.bi、namenode01.bi服务器上的DataNode服务下线 由于namenode02....)服务器调整为DataNode服务器 调整完后,增加datanode19.bi、datanode20.bi两个服务器名称 一、DataNode下线 1、在namenode01上,添加退役节点的IP到黑名单...上线 1、通知运维修改服务器主机名称,并更新host: namenode01.bi(old) -> datanode19.bi namenode02.bi -> datanode20.bi 2、在/usr....bi datanode20.bi 6、单独在新节点的机器上启动新节点上的DataNode: /usr/local/hadoop-2.6.3/sbin/hadoop-daemon.sh start datanode

    2.2K20

    Hadoop问题:DataNode线程不见了

    DataNode线程不见了 问题描述     最近配置Hadoop的时候出现了这么一个现象,启动之后,使用jps命令之后是这样的:     看不到DataNode进程,但是能够正常的工作,是不是很神奇啊...namenode -format     这个问题,还不是你直接多次格式化造成的,而是你格式化之后,启动了Hadoop,然后将Hadoop关闭,重新格式化,再启动Hadoop造成的,这个时候你就发现,DataNode...造成这个问题的根源,是NameNode和DataNode的版本号不一致所致。这个问题不仅仅会出现在伪分布式,完全分布式中也会出现。这里以伪分布式进行展示。    ...的版本还没有生成,只有Hadoop启动之后DataNode的版本等响应信息才会在指定的目录下生成,这个时候就产生了NameNode和DataNode的一对一的关系。    ...然后,进行格式化,这样所产生的NameNode和DataNode信息都是新的,也都是一组的,问题就解决了,这个是最简单最有效的方法。

    1.3K60

    DataNode发生full GC优化及建议

    问题描述:DataNode进程发生full GC问题现象:emr控制台“集群监控”-->“集群事件”里会出现“ DataNode 发生full GC ”的告警事件原因:该节点DataNode实例堆内存使用率过大...可能影响:DataNode进程的垃圾回收时间过长,可能影响该DataNode进程正常提供服务。处理建议:       1....在EMR控制台“集群服务”下,点击“HDFS”进入HDFS服务管理列表,切到“配置管理”页签,修改hadoop-env.sh中的“DNHeapsize”配置项,单个DataNode实例平均Block数量和...DataNode内存的对应关系参考值如下: 单个DataNode实例平均Block数量达到2,000,000,DataNode的JVM参数参考值为:-Xms6G -Xmx6G -XX:NewSize=...512M -XX:MaxNewSize=512M单个DataNode实例平均Block数量达到5,000,000,DataNode的JVM参数参考值为:-Xms12G -Xmx12G -XX:NewSize

    86730
    领券