腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
地图用户数
、
我在
hdfs
上有4个文件。映射器数=输入分叉数。我的问题是,所有这些文件是
存储
在一个64 MB的块还是4个不同的块?因为每个文件的数据小于64 is。 2.txt这是文本文件24.“空”
浏览 4
提问于2015-09-09
得票数 0
1
回答
当我使用FileSystem.get(URI.create("
hdfs
://loacalhost:9000/filepath"),conf时发生了什么?
、
、
、
在一个需要我优化
HDFS
小文件
支持的项目中,我感到困惑。其步骤如下:
hdfs
fs -put ~/local/smallfile /usr/smallfile。但是如果我的项目正常,
小文件
应该
存储</em
浏览 0
提问于2015-05-31
得票数 0
4
回答
是否将多个文件
存储
在单个块中?
、
当我将许多
小文件
存储
到
HDFS
中时,它们是否会
存储
在单个数据块中? 在我看来,根据下面的讨论,这些
小文件
应该
存储
到单个块中:
浏览 0
提问于2014-01-22
得票数 4
2
回答
Hadoop如何拆分和合并其输出数据?
、
、
假设您正在
HDFS
上
存储
一个映像。该映像足够大,在
HDFS
上被分成四个独立的较
小文件
。当您执行返回该图像的操作时,Hadoop是否会返回这4个可以组合成原始图像的
小文件
?或者Hadoop会自动将这4个
小文件
重新组合成原始文件吗? 谢谢!
浏览 2
提问于2012-07-10
得票数 0
回答已采纳
2
回答
在
HDFS
中处理总大小为100 in的多个
小文件
、
文件从本地dir移动到
HDFS
路径(
hdfs
://messageDir/..)使用批处理和每批处理,我可以看到几千个.txt文件,它们的总大小约为100 is。几乎所有的文件都小于1MB。我可以知道
HDFS
如何
存储
这些文件并执行拆分吗?因为每个文件都小于1MB(小于64/128 MB的
HDFS
块大小),所以我认为不会发生任何分裂,但是文件将被复制并
存储
在3个不同的数据节点中。当我使用Spark读取
HDFS
目录中的所有文件时(<em
浏览 2
提问于2018-10-21
得票数 0
回答已采纳
1
回答
是否可以在hadoop中创建/使用非paralleized文件?
我想知道,是否有可能将一个
小文件
保存在一个特定的dataNode(而不是paralleized)中?
浏览 3
提问于2017-11-27
得票数 0
回答已采纳
3
回答
在hadoop中
存储
多个
小文件
的最佳位置是什么?
、
、
、
、
我将有多个大小约为10 or的小文本文件,弄不清楚这些文件在HBase或
HDFS
中的
存储
位置。什么是优化的
存储
?因为要
存储
在HBase中,我需要先解析它,然后根据某个行键保存它。在
HDFS
中,我可以直接创建一个路径并将该文件保存在该位置。但是直到现在,不管我读到了什么,它都说你不应该有多个
小文件
,而应该创建更少的大文件。但是我不能合并这些文件,所以我不能用
小文件
创建大文件。
浏览 6
提问于2016-06-23
得票数 0
回答已采纳
1
回答
将包含许多文本文件的文件夹插入到Hadoop中
、
我的桌面上有一个文件夹,里面有3,000+小.txt文件。我如何才能将包含所有.txt文件的文件夹放到Hadoop中,而不是分别上传每个文件? 我正在使用带有Hadoop 3.1.2的Ubuntu操作系统
浏览 17
提问于2020-11-17
得票数 0
5
回答
小文件
和
HDFS
数据块
、
Hadoop分布式文件系统中的一个块是
存储
多个
小文件
,还是一个块只
存储
一个文件?
浏览 5
提问于2011-12-19
得票数 12
回答已采纳
1
回答
演示如何在
HDFS
上复制和
存储
拼花文件。
、
、
存储
在拼板格式中的数据会在
HDFS
上形成一个包含许多
小文件
的文件夹。提前谢谢。
浏览 3
提问于2016-08-31
得票数 0
回答已采纳
1
回答
很多
小文件
和128 Mb块大小的
HDFS
行为
、
我有很多(高达数十万)的
小文件
,每个文件10-100 Kb.我的
HDFS
块大小等于128 MB。复制因子等于1。 但是,从
HDFS
中批量读取10.000个
小文件
怎么样?是否有任何理由将多个
小文件
保存在单个块中?我只有一个用于
小文件
浏览 2
提问于2017-05-08
得票数 4
回答已采纳
1
回答
为什么我应该避免在Hadoop中
存储
大量的
小文件
?
、
我读过很多
存储
在
HDFS
中的
小文件
可能是一个问题,因为很多
小文件
意味着很多对象Hadoop NameNode内存。但是,由于每个块都作为一个对象
存储
在指定的节点中,那么对于一个大文件来说,它有什么不同呢?无论您是将单个文件中的1000个块
存储
在内存中,还是将1000个块
存储
在1000个文件中,使用的NameNode内存量是否相同? 地图作业的类似问题。既然它们是在块上操作,那么块是
小文件
还是大文件又有什么关系呢?
浏览 0
提问于2017-10-21
得票数 1
回答已采纳
1
回答
HDFS
(序列文件)中的单个大文件还是多个
小文件
?
、
目前,我正在使用Sequence File压缩现有的
HDFS
数据。 尽可
浏览 1
提问于2017-03-11
得票数 0
回答已采纳
2
回答
HDFS
-与块大小相关的
、
、
我认为在
HDFS
中,第一个文件消耗10 MB,其余54 MB被释放到广告到可用的空间。
浏览 3
提问于2015-11-04
得票数 0
回答已采纳
1
回答
hadoop大数据集
、
如果我上传文件到
hdfs
,那么name节点保存了三个重要的元信息,如文件名、块总数和文件大小,每个信息包含150个字节,变成450个字节。如果我们上传了大量相同数据的文件,那么必须增加名称节点内存。
浏览 0
提问于2014-08-03
得票数 0
回答已采纳
2
回答
基于hadoop的并行图像处理
、
、
、
使用Hadoop,我想为每个图像创建一个金字塔的瓦片(深度缩放格式),并将它们
存储
在
HDFS
上。理想情况下,我希望实现每个节点只处理图像的一部分。 实现这一目标的最佳方法是什么?在
HDFS
上
存储
小文件
会有很大的开销吗?
浏览 0
提问于2012-07-09
得票数 0
4
回答
火花流:避免
HDFS
中的
小文件
、
、
我有一个Spark流应用程序,它将其输出写入
HDFS
。 我可以采取什么预防措施和策略来确保这个过程不会产生太多的
小文件
,并在
HDFS
Namenode中造成内存压力。Apache是否提供任何预先构建的解决方案以避免
HDFS
中的
小文件
。
浏览 0
提问于2018-06-05
得票数 2
回答已采纳
1
回答
HDFS
:如何在不同的范围内分发小尺寸的文件?
、
、
、
我有大量的
小文件
要
存储
在
HDFS
中。根据文件名,我希望将它们
存储
在不同的数据节点中。通过这种方式,我可以实现文件名,从特定的字母开始进入特定的数据节点。怎么在Hadoop做这件事?
浏览 0
提问于2013-09-16
得票数 0
回答已采纳
4
回答
HDFS
数据块大小与实际文件大小
、
我知道
HDFS
在数据节点中使用常规的linux文件系统
存储
数据。我的
HDFS
块大小是128 MB。假设我的hadoop群集中有10 GB磁盘空间,这意味着,
HDFS
最初有80 blocks作为可用
存储
。 如果我创建一个比方说12.8 MB的
小文件
,#available
HDFS
块将变为79。在前一种情况下,
HDFS
基本上在每次块分配后根据可用磁盘空间重新计算#可用块,因此,只有在超过128MB的磁盘空间被消耗后,#可用块才会变为78。请澄清。
浏览 0
提问于2013-02-25
得票数 16
回答已采纳
2
回答
如何在spark中减少多个
小文件
加载时间
、
、
在给定的
HDFS
位置上,我有多个parquet格式的
小文件
(对于给定的月份,计数是递增的,因为我们在给定的月份内每天接收两个或更多的文件)。当我尝试从SPARK 2.1中的
HDFS
位置读取文件时,读取这些文件所用的时间会更长,并且随着更多
小文件
被添加到给定位置,读取这些文件所需的时间也会增加。因为文件很小,所以我不想在
HDFS
中进一步分区。 通过在
HDFS
上创建目录来创建分区,然后将文件放置在这些目录中。文件格式为拼花。是否有其他格式或过程可以一次读取所有
小文件
,以便我
浏览 1
提问于2018-01-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据 HDFS 小文件处理方案
如何从根源上解决 HDFS 小文件问题
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
Hadoop 存储-HDFS介绍
Hadoop HDFS DataNode 存储机制
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券