首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的。...的负担,并且时间长了会让namenode上放了各种乱七八糟的文件),在这个节点上不启动任何hadoop进程,但是可以当作客户端使用。...上传文件到集群。 也可以自己写一个上传文件的程序、在其他非集群节点上运行来上传文件。...2、使用balancer 可以通过 hdfs balancer -threshold XX 来进行平衡,xx是一个百分比。关于这个命令的用法网上一搜一大堆。...但是默认情况下,这个平衡时非常慢的,因为默认的hadoop不允许balancer占用很大的网络带宽。

95510

Hadoop HDFS 常用文件操作命令

注意:跨文件系统的移动(local到hdfs或者反过来)都是不允许的 ---- count 1 hadoop fs -count hdfs path > 统计hdfs对应路径下的目录个数,文件个数...fs -du -s 显示hdfs对应路径下所有文件和的大小 1 hadoop fs -du - h 显示hdfs对应路径下每个文件夹和文件的大小...---- tail 1 hadoop fs -tail hdfs file > 在标准输出中显示文件末尾的1KB数据 ---- archive 1 hadoop archive -archiveName.../des* 示例中将hdfs中/user目录下的文件1.txt,2.txt压缩成一个名叫hadoop.har的文件存放在hdfs中/des目录下,如果1.txt,2.txt不写就是将/user目录下所有的目录和文件压缩成一个名叫...---- balancer 1 hdfs balancer 如果管理员发现某些DataNode保存数据过多,某些DataNode保存数据相对较少,可以使用上述命令手动启动内部的均衡过程 ---- dfsadmin

2.3K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Hadoop大数据初学者指南

    HDFS使用主/从架构,其中主节点包含一个单独的NameNode来管理文件系统元数据,以及一个或多个从节点DataNode来存储实际数据。...这些文件以冗余的方式存储,以防止系统在发生故障时可能丢失数据。 HDFS的特点 适用于分布式存储和处理。 Hadoop提供了一个命令接口来与HDFS进行交互。...namenode和datanode的内置服务器帮助用户轻松检查群集的状态。 流式访问文件系统数据。 HDFS提供文件权限和身份验证。...默认块大小为64MB,但可以根据需要在HDFS配置中进行增加。 HDFS的目标 故障检测和恢复:由于HDFS包含大量的通用硬件,组件故障经常发生。...tail [-f] 在stdout上显示文件file的最后1KB内容。 chmod [-R] mode,mode 更改与路径path关联的文件权限。

    30130

    Hadoop HBASE集群运维相关笔记 及hdfs参数设置调优等

    [toc] 本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题,包括HBASE HDFS的常见问题及相关的解决方案 ## 1....,可以将此节点服务器,从hadoop群集中排除, umount这块硬盘,之后更换个新的,重新格式化mount,再将服务器重新加入到hadoop群集中即可。...### 1.3 优化Hadoop Balancer平衡的速度 Hadoop的HDFS集群在使用一段时间后,各个DataNode节点的磁盘使用率肯定会出现不平衡的情况,也就是数据量层面的数据倾斜。...> >但是这种方式有个弊端是会产生很多小文件(切分的Hlog数 宕机的RegionServer上的Region数)。...如果集群中有多台RegionServer宕机的情况,小文件更是会成倍增加,恢复的过程还是会比较慢。

    1K31

    【Hadoop篇】--Hadoop常用命令总结

    (包含子目录等)      hdfs dfs –rm [目录地址]     hdfs dfs –rmr /user/t   8、在hadoop指定目录内创建新目录       hdfs dfs...用户可以使用命令重新平衡DataNode上的数据块的分布:/usr/local/hadoop$bin/start-balancer.sh 7、补充 1.对hdfs操作的命令格式是hdfs dfs  ...将HDFS中的test.txt复制到本地文件系统中,与-put命令相反    hdfs dfs –cat /user/sunlightcs/test.txt  查看HDFS文件系统里test.txt的内容...    hdfs dfs –tail /user/sunlightcs/test.txt  查看最后1KB的内容    hdfs dfs –rm /user/sunlightcs/test.txt  从...,并写入本地文件系统中的LOCALDST,选项addnl将在每个文件的末尾处加上一个换行符    hdfs dfs –touchz PATH   创建长度为0的空文件    hdfs dfs –test

    3.2K10

    【Confluent】Confluent入门简介

    Confluent Replicator(数据复制与迁移) Confluent Platform使我们可以比以往更轻松地在多个数据中心内维护多个Kafka群集。...Confluent Auto Data Balancer(解决负载均衡) 随着集群的增长,topic和partition以不同的速度增长,随着时间的推移,添加和删除会导致跨数据中心资源的工作负载不平衡。...当执行时,Confluent Auto Data Balancer会监控您的群集中的broker数量,partition大小,partition数量以及群集中的broker数量。...它允许我们转移数据以在整个群集中创建均匀的工作负载,同时限制重新平衡流量,以最大限度地减少重新平衡时对生产工作负载的影响。...Confluent JMS Client(消息服务) Confluent Platform包含适用于Kafka的JMS兼容客户端。

    1.5K10

    独家 | 一文读懂Hadoop(二)HDFS(下)

    如果无参数调用,则打印由命令脚本设置的类路径,可以在类路径条目中包含通配符。其他选项在通配符扩展后打印类路径或将类路径写入jar文件的清单。...5.2.1 balancer 运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。 5.2.2 cacheadmin HDFS缓存管理。 5.2.3 crypto HDFS透明加密。...5.2.16 zkfc 这个命令启动一个Zookeeper故障转移控制器过程与带有QJM的HDFS HA一起使用。 5.3 调试命令 有效的帮助管理员调试HDFS问题。这些命令仅适用于高级用户。...该工具类似于Balancer。它定期扫描HDFS中的文件,以检查块布局是否满足存储策略。对于违反存储策略的块,它会将副本移动到不同的存储类型,以满足存储策略要求。...数据库可能需要对单个文件中存储的每个列进行不同的加密设置; 磁盘级别加密。容易部署和高性能,但也很不灵活。 HDFS级加密适用于此堆栈中的数据库级和文件系统级加密。这有很大的积极作用。

    2K61

    独家 | 一文读懂Hadoop(二)HDFS(上)

    块状态报告包含了一个该Datanode上所有数据块的列表。 HDFS数据节点 2.3.2.2 Block的副本放置策略 副本的存放是HDFS可靠性和性能的关键。...NameNode,并返回给DistributedFileSystem该文件包含的block所在的DataNode位置; HDFS客户端通过FSDataInputStream按顺序去读取DataNode中的...在对特定文件的突然高需求的情况下,此方案可以动态地创建附加的副本并重新平衡群集中的其他数据。 4.2.1.2.1 平衡器 HDFS的数据也许并不是非常均匀的分布在各个DataNode中。...该工具能够相对快速地处理非常大的image文件。该工具处理Hadoop版本2.4及更高版本中包含的布局格式。...常用的估算公式为1G对应1百万个块,按缺省块大小计算的话,大概是64T (这个估算比例是有比较大的富裕的,其实,即使是每个文件只有一个块,所有元数据信息也不会有1KB/block)。

    2.3K102

    HDFS-简介

    HDFS提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。...HDFS实例可能包含数百或数千个服务器计算机,每个服务器计算机都存储文件系统数据的一部分。存在大量组件并且每个组件的故障概率都很低的事实意味着HDFS的某些组件始终无法运行。...支持大数据集:在HDFS上运行的应用程序具有大量数据集。HDFS中的典型文件大小为GB到TB。因此,HDFS已调整为支持大文件。它应提供较高的聚合数据带宽,并可以扩展到单个群集中的数百个节点。...四、数据复制 HDFS旨在在大型群集中的计算机之间可靠地存储非常大的文件。它将每个文件存储为一系列块。复制文件的块是为了容错。块大小和复制因子是每个文件可配置的。...它定期从群集中的每个DataNode接收心跳信号和Blockreport。收到心跳信号表示DataNode正常运行。Blockreport包含DataNode上所有块的列表。

    53620

    Hadoop、MapReduce、HDFS介绍

    是一个适用于处理大量数据的编程模型。...DFSAdmin 可以用来管理HDFS群集的命令集。 fsck Hadoop命令的子命令。 可以使用fsck命令检查文件是否存在不一致,如缺少块,但不能使用fsck命令纠正这些不一致。...Name nodes and data nodes 内置Web服务器可让管理员检查群集的当前状态。 由于其简单而强大的体系结构,HDFS具有非凡的功能集和高期望值。...HDFS架构 HDFS由文件和目录所在节点的互连集群组成。 HDFS群集包含一个称为NameNode的单个节点,该节点管理文件系统命名空间并管理客户端对文件的访问。...HDFS架构图如下: ? 每个群集都包含一个NameNode。 这种设计方便了管理每个命名空间和判断数据分配的简化模型。

    1.2K31

    重庆某项目生产集群扩容问题总结及复盘

    .操作系统版本为Redhat7.2 2.CM和CDH版本为5.11.2 3.HDFS已启用HA 2.问题清单 2.1.hosts文件同步问题导致的API功能异常 ---- 【问题描述】 生产集群新增节点后...2.2.HDFS运行Balancer失败 ---- 【问题描述】 运行HDFS的Balancer命令后,中止过该命令一次,再次运行Balancer命令出现如下报错: 异常信息提示为:”java.io.IOException...【问题原因】 HDFS在运行Balancer的时候,会将运行Balancer的主机名写入到balancer.id这个文件里面,通过这个Mark File来检测Balancer是否运行,该文件存放在HDFS...【解决办法】 以“balancer.id”命名的Mark File存储了运行Balancer主机的主机名,位于HDFS的/system目录下,如果执行Balancer出现”java.io.IOException...【建议】 如果HDFS的Balancer在非正常情况下终止,建议在重新执行Balancer前,清除掉balancer.id这个文件。

    1.2K10

    大数据学习之路03——Hadoop常用命令详解

    .tmp.txt hello world tail 在标准输出中显示文件末尾的1KB数据 command: hadoop fs -tail hdfs file> eg: WZB-MacBook:50...(local到hdfs或者反过来)都是不允许的 count 统计hdfs对应路径下的目录个数,文件个数,文件总计大小 显示为目录个数,文件个数,文件总计大小,输入路径 command: hadoop fs...fs -setrep -R 3 hdfs path > 改变一个文件在hdfs中的副本个数,上述命令中数字3为所设置的副本个数,-R选项可以对一个人目录下的所有目录+文件递归执行改变副本个数的操作...;hdfs parent dir > :压缩文件所在的父目录;:要压缩的文件名;hdfs dst >:压缩文件存放路径*示例:hadoop archive -archiveName...balancer hdfs balancer 如果管理员发现某些DataNode保存数据过多,某些DataNode保存数据相对较少,可以使用上述命令手动启动内部的均衡过程 dfsadmin hdfs dfsadmin

    1.7K40

    HDFS shell 快查

    HDFS设计的主要目的是对海量数据进行处理,也就是说在其上能够储存很大量文件,HDFS提供多种的访问的策略,首先我们来认识其通过shell接口的访问方式。...创建文件夹 hdfs dfs -mkdir /data 上传文件 hdfs dfs -put me.txt /data //保留原文件 hdfs dfs -copyFromLocal weibo.txt...hdfs://qq:9000/middle HDFS fsck move: 移动损坏的文件到/lost+found目录下 delete: 删除损坏的文件 openforwrite: 输出检测中的正在被写的文件...: 输出block的位置信息 (需要和-files参数一起使用) racks: 输出文件块位置所在的机架信息(需要和-files参数一起使用 查看HDFS中某个文件的块block分布 hadoop fsck...机器与磁盘利用率不平等会导致很多问题,比如程序无法更好的利用本地计算机的优势。 HDFS balancer可以使计算机达到平衡状态,如果磁盘利用率偏差小于10%,我们认为达到了平衡状态。

    47850

    Hadoop 2.x与3.x 22点比较:3.x将节省大量存储空间

    2.11兼容的文件系统 Hadoop 2.x - HDFS(默认FS),FTP文件系统:它将所有数据存储在可远程访问的FTP服务器上。...2.15插槽/容器 Hadoop 2.x - Hadoop 1适用于插槽的概念,但Hadoop 2.X适用于容器的概念。通过容器,我们可以运行通用任务。...Hadoop 3.x - 它也适用于容器的概念。 2.16单点故障 Hadoop 2.x - 具有SPOF的功能,因此只要Namenode失败,它就会自动恢复。...2.18可扩展性 Hadoop 2.x - 我们可以扩展到每个群集10,000个节点。 Hadoop 3.x - 更好的可扩展性。 我们可以为每个群集扩展超过10,000个节点。...2.22群集资源管理 Hadoop 2.x - 对于群集资源管理,它使用YARN。 它提高了可扩展性,高可用性,多租户。 Hadoop 3.x - 对于集群,资源管理使用具有所有功能的YARN。

    2.4K20

    0882-7.1.6-如何对HDFS进行节点内(磁盘间)数据平衡

    8.登陆DataNode节点查看是否创建该目录生成文件 3.节点内Balancer 1.登陆CM界面,进入HDFS点击配置,搜索“hdfs-site.xml”添加以下内容后并重启HDFS服务 dfs.disk.balancer.enabled...第一步,HDFS客户端从NameNode上读取指定DataNode的的必要信息以生成执行计划: 磁盘平衡执行计划生成的文件内容格式是Json的,并且存储在HDFS之上。...在默认情况下,这些文件是存储在 /system/diskbalancer 目录下面。...为了验证磁盘平衡器的有效性,我们可以使用df -h 命令来查看各个磁盘的空间使用率: Balancer前: Balancer后 6.如果集群节点磁盘不均衡,可以在CM界面打开重新均衡 4.总结 1...2.节点内Balancer需要使用系统hdfs.keytab才能执行成功。

    1.9K20
    领券