腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Hadoop
如何拆分和合并其输出数据?
、
、
假设您正在HDFS上
存储
一个映像。该映像足够大,在HDFS上被分成四个独立的较
小文件
。当您执行返回该图像的操作时,
Hadoop
是否会返回这4个可以组合成原始图像的
小文件
?或者
Hadoop
会自动将这4个
小文件
重新组合成原始文件吗? 谢谢!
浏览 2
提问于2012-07-10
得票数 0
回答已采纳
1
回答
是否可以在
hadoop
中创建/使用非paralleized文件?
我们总是说,如果我们使用
hadoop
来模仿我们的数据和程序,那么速度会有多快。我想知道,是否有可能将一个
小文件
保存在一个特定的dataNode(而不是paralleized)中?
浏览 3
提问于2017-11-27
得票数 0
回答已采纳
1
回答
Hadoop
SequenceFile -记录的自动增量键
、
、
、
、
我正在考虑使用SequenceFile作为“小型数据库”来
存储
小文件
。我需要这个并发客户端可以在这个SequenceFile中
存储
小文件
并检索唯一的id (记录的键)。如果是,请张贴一个小的例子(或一些参考),如果没有。我能用
hadoop
做什么来满足我的需要?
浏览 1
提问于2015-10-27
得票数 0
回答已采纳
1
回答
HDFS EC为什么
小文件
变大
、
这是EC
存储
的文件-rwx--x--x 1 hiidoagent hdfs RS-6-3-1024k 3846 2022-09-08 21:2845.6 K hdfs://yycluster06/hive_warehouse/freshman.db/ec_hive_hot_data_top/dt=20220912 对于与3xReply相同大小的
小文件
浏览 10
提问于2022-09-13
得票数 0
5
回答
小文件
和HDFS数据块
、
Hadoop
分布式文件系统中的一个块是
存储
多个
小文件
,还是一个块只
存储
一个文件?
浏览 5
提问于2011-12-19
得票数 12
回答已采纳
1
回答
如何在Google Cloud Storage中
存储
大量的小HTML文件来优化Dataproc?
、
、
我们目前在谷歌
存储
上有很多(200M+)的
小文件
。我们希望能够将所有这些文件放入
Hadoop
( MapReduce或Spark)进行处理。然而,我的理解是,当列出和读取大量
小文件
时,Dataproc的性能会很差,
Hadoop
也是如此。所以我的问题是,我应该如何将大量的
小文件
捆绑成更大的文件,以便高效地列出和读取?我考虑过使用avro,只是将HTML作为字节字段
存储
在avro记录中,但我不认为avro真的是为这种用例而设计的。
浏览 55
提问于2018-12-20
得票数 0
1
回答
有没有可能在Apache Flume中加入很多文件?
、
我们的管理层希望使用
Hadoop
集群来分析和
存储
这些文件。但是在
hadoop
中
存储
小文件
并不是很有效。在
hadoop
或Flume中是否有任何选项来加入(创建一个大文件)此文件?非常感谢你的帮助。
浏览 4
提问于2018-05-04
得票数 1
1
回答
为什么我应该避免在
Hadoop
中
存储
大量的
小文件
?
、
我读过很多
存储
在HDFS中的
小文件
可能是一个问题,因为很多
小文件
意味着很多对象
Hadoop
NameNode内存。但是,由于每个块都作为一个对象
存储
在指定的节点中,那么对于一个大文件来说,它有什么不同呢?无论您是将单个文件中的1000个块
存储
在内存中,还是将1000个块
存储
在1000个文件中,使用的NameNode内存量是否相同? 地图作业的类似问题。既然它们是在块上操作,那么块是
小文件
还是大文件又有什么关系呢?
浏览 0
提问于2017-10-21
得票数 1
回答已采纳
2
回答
BlockSize与大数据
、
每个人都知道
Hadoop
对
小文件
的处理很差,因为它必须使用映射器的数量。但是大文件呢,它比块大小稍微大一点。例如,假设hdfs块大小为128 an,
hadoop
接收126 an至130 an之间的文件。126 to和128 to之间的文件适合
存储
在
hadoop
中,但是对于129 to 130 to的文件,
hadoop
需要2个映射器才能读取这些文件吗?如何在
hadoop
中处理这个问题,以克服hdfs块更大的事实? (预先谢谢:)
浏览 3
提问于2016-02-29
得票数 0
回答已采纳
1
回答
使用火花流将非结构化数据持久化到
hadoop
、
、
、
我有一个使用火花流创建的吞食管道,我希望将RDDs
存储
在
hadoop
中,作为一个大型的非结构化(JSONL)数据文件来简化未来的分析。在没有大量
小文件
的情况下,将astream持久化到
hadoop
的最佳方法是什么?(因为
hadoop
不擅长这些,而且它们使分析工作流复杂化)
浏览 2
提问于2015-04-27
得票数 1
回答已采纳
4
回答
是否将多个文件
存储
在单个块中?
、
当我将许多
小文件
存储
到HDFS中时,它们是否会
存储
在单个数据块中? 在我看来,根据下面的讨论,这些
小文件
应该
存储
到单个块中:
浏览 0
提问于2014-01-22
得票数 4
1
回答
在Ubuntu上模拟
Hadoop
集群
、
、
、
我承认我是
hadoop
的新手,所以请容忍我。有没有什么办法可以在一个ubuntu安装上模拟多个节点来执行完全分布式的
hadoop
操作? 如果我的问题中有逻辑上的缺陷和事实上的不准确,我再次道歉。正如我所说的,我是
Hadoop
的新手。
浏览 1
提问于2013-09-16
得票数 0
1
回答
将记录
存储
在HDFS或HBase中
、
测量是在
Hadoop
上使用机器学习算法处理的。并不是所有的测量都是针对特定用户的,而是针对特定的用户(例如,对Y-Z期间上传的用户X中的文件执行处理) 如果答案是肯定的,我可以使用哪些数据库?所以我需要数据库是: 兼容
H
浏览 5
提问于2015-11-04
得票数 2
回答已采纳
1
回答
HDFS:如何在不同的范围内分发小尺寸的文件?
、
、
、
我有大量的
小文件
要
存储
在HDFS中。根据文件名,我希望将它们
存储
在不同的数据节点中。通过这种方式,我可以实现文件名,从特定的字母开始进入特定的数据节点。怎么在
Hadoop
做这件事?
浏览 0
提问于2013-09-16
得票数 0
回答已采纳
1
回答
将包含许多文本文件的文件夹插入到
Hadoop
中
、
我如何才能将包含所有.txt文件的文件夹放到
Hadoop
中,而不是分别上传每个文件? 我正在使用带有
Hadoop
3.1.2的Ubuntu操作系统
浏览 17
提问于2020-11-17
得票数 0
4
回答
从
Hadoop
提供静态文件
、
、
、
、
Hadoop
文件系统。我以前使用过
Hadoop
,但我没有使用
Hadoop
作为HTTP请求的静态文件
存储
库的经验。所以我不知道这是可能的还是推荐的方法。 MogileFS。
浏览 11
提问于2013-06-02
得票数 4
回答已采纳
2
回答
如何将百万歌曲数据集等大数据集加载到BigData HDFS、Hbase、Hive?
、
、
、
、
我已经下载了百万首歌曲数据集的一个子集,大约2 2GB。但是,数据被分解为文件夹和子文件夹。在子文件夹中,它们都是几种“H5文件”格式。我知道它可以用Python来读取。但是我不知道如何提取并加载到HDFS中,这样我就可以在Pig中运行一些数据分析。我是否将它们提取为CSV并加载到Hbase或Hive?如果有人能帮我找到合适的资源会很有帮助。
浏览 0
提问于2015-10-10
得票数 0
2
回答
解析数百万个小型XML文件
、
、
、
我有1000万个小型XML文件(300.i 500.i),我使用Mapreduce中Mahaout的XML输入格式读取数据,我使用SAX Parser进行解析。但是处理是非常slow.will的,使用输入文件的压缩(Lzo)有助于提高性能?每个文件夹包含80-90k xml文件,当我启动该进程时,它会为每个file.is运行映射器,有什么方法可以减少映射器的使用吗?
浏览 1
提问于2015-09-16
得票数 0
回答已采纳
1
回答
如何使用
Hadoop
MapReduce处理一个二维数组,每个文件一个?
、
我需要将文件作为一个单元来读取和处理,而不是逐行读取和处理,并且不清楚如何在
Hadoop
MapReduce应用程序中这样做。在这种情况下,第一项任务可能是将输入文件合并成序列文件,如权威
Hadoop
‘’Reilly一书(第二版第194页)中的SmallFilesToSequenceFileConverter示例所示?
浏览 1
提问于2012-07-03
得票数 1
回答已采纳
5
回答
HDFS -加载大量文件
、
、
、
、
为了测试目的,我试图将大量的
小文件
加载到HDFS中。实际上,我们讨论的是大约100万(1'000'000)个大小为1KB到100 1KB的文件。
浏览 2
提问于2015-08-13
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据开发之用CombineFileInputFormat优化Hadoop小文件
海量小文件的开源存储方案选型建议
Hadoop 存储-HDFS介绍
Hadoop HDFS DataNode 存储机制
大数据 HDFS 小文件处理方案
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券