腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
使用
spark
将
大文件
拆
分为
小文件
并
保
存在
不同
的
路径
中
、
如何
将
一个
大文件
/RDD/DF拆分成
小文件
并
保存到
不同
的
路径
。val namesRDD=sc.textfile("readPath")如何
将</e
浏览 6
提问于2018-07-18
得票数 0
回答已采纳
3
回答
如何
将
HDFS
小文件
合并为一个
大文件
?
、
、
、
我有从Kafka流生成
的
小文件
的
数量,所以我喜欢合并
小文件
到一个单一
的
文件,但这种合并是基于日期,即原始文件夹可能有以前
的
文件数量,但我只喜欢合并给定
的
日期文件到一个单一
的
文件。 有什么建议吗?
浏览 9
提问于2018-07-26
得票数 0
1
回答
Spark
scala :
将
csv文件上载到azure blob时出现文件已
存在
异常
、
、
、
将其转换为csv
并
尝试
将
csv上传到azure blob。但是,对于MBs
中
的
小文件
,我可以
使用
以下
spark
scala代码成功地完成相同
的
操作。import org.apache.
spark
.SparkContext import org.apache.
spark
.sql.SQLContextimport co
浏览 1
提问于2017-03-30
得票数 0
2
回答
写入相同数据量
的
多个文件与写入相同数据量
的
单个
大文件
、
、
我想在本地磁盘上写一个
大文件
。我
将
大文件
分割成许多
小文件
,
并
尝试将其写入磁盘。但我观察到,当我拆分文件
并
尝试写入时,磁盘写入时间会大大增加。此外,我从磁盘复制文件,并将其写入另一台计算机
的
磁盘(Reducer)。我观察到读取时间也有很大
的
增加。有人能给我解释一下原因吗?我正在
使用
hadoop。 谢谢!
浏览 0
提问于2012-10-31
得票数 2
回答已采纳
2
回答
如何对
大文件
进行排序(不适合于RAM)
、
、
收集数据 例如,以包含数字
的
500 in文件为例,作为步骤1
的
输出。每一行一个数字。步骤2将如何在不读取整个输入文件
的
情况下有效地排序数字?
浏览 7
提问于2014-06-19
得票数 1
2
回答
蜂箱分区、火花分区和加入火花-它们之间
的
关系
、
、
、
试图理解Hive分区是如何与
Spark
分区相关联
的
,最后提出了一个关于联接
的
问题。").as[Table2Row])假设我现在
使用
的
是RDD,而不是: val rdd1 = table1.r
浏览 4
提问于2018-04-25
得票数 5
1
回答
git lfs在Ubuntu 18.04上推动github失败
、
、
、
由于文件大小和建议
使用
git,对GitHub
的
推送失败了。在发生此错误后,我
的
同事
将
一个.gitattributes文件推送到GitHub上
的
远程主分支,其中包含以下内容:然后,我将我
的
特性分支与master一起重新构建,以便
将
这个文件放入我
的
特性分支
中
。,
并
使用
类似的推送失败错误消息(由于大小较大)。然后我搜索<e
浏览 1
提问于2021-05-29
得票数 0
回答已采纳
1
回答
Apache
Spark
DAGScheduler数据流
、
、
我正在尝试理解Apache
Spark
调度程序到底是如何工作
的
。为此,我设置了一个包含一个master和两个worker
的
本地集群。我只提交了一个应用程序,它简单地读取4个文件(2个
小文件
(~10MB)和2个
大文件
(~1.1 the )),连接它们
并
收集结果。另外,我在内存
中
缓存了这两个
小文件
。我正在
使用
FIFO.I运行独立
的
集群模式,我知道阶段是如何形成
的
,但我不知道数据流是如何确定
的</
浏览 0
提问于2018-02-27
得票数 0
1
回答
是否允许通过合并或重新分区来合并HDFS
中
的
小文件
(但合并后会很大)?
、
、
、
、
我正在
使用
HDFS -接收器-连接器来
使用
Kafka
的
数据进入HDFS。这个目录是按日期创建
的
;所以我想通过每天
的
批处理
将
许多
小文件
合并到一个
大文件
中
是很棒
的
。(我预计HDFS将自动<e
浏览 7
提问于2022-03-22
得票数 0
回答已采纳
1
回答
为
大文件
和
小文件
创建NSFileHandle之间是否
存在
性能差异?
、
、
这个问题让我觉得很傻,但我只想检查一下自己
的
理智。出于各种原因,我
将
一堆文件焊接成一个
大文件
,然后将其作为资源打包到我
的
iOS应用程序
中
。然后,我
使用
NSFileHandle打开文件,查找到正确
的
位置,然后读出我想要
的
字节。 这种方式和读取松散文件之间有性能上
的
区别吗?或者,假设我可以选择只
使用
一个单片大小
的
大文件
,而不是10个中等大小(但仍然连接)
的
文件,那么“
浏览 1
提问于2012-11-02
得票数 0
回答已采纳
1
回答
如何
使用
spark
创建
大文件
的
较小子集
、
、
我有一大堆相关
的
文件。我想用较
大文件
中
的
数据子集生成较
小文件
。我如何
使用
apache
spark
来获得它?我想要
的
只是一个文件
中
的
df.show输出。
Spark
已经
将
结果聚合到驱动程序
浏览 5
提问于2018-11-30
得票数 0
5
回答
通过多线程处理
大文件
、
、
磁盘上有一个相当大
的
文件(>10G),fie
中
的
每一行都由一个行号和一个人
的
名字组成,如下所示:2 Perk4 PerkPerk 2Sime 1 按照面试官
的
要求,上述工作应尽可能高效地完成,
并
允许多线程。我
的
解决方案是这样<
浏览 4
提问于2012-07-19
得票数 6
回答已采纳
3
回答
如何合并
spark
SQL查询
的
结果以避免大量
小文件
/避免空文件
、
、
上下文:在我们
的
数据管道
中
,我们
使用
spark
运行来自最终用户
的
大量查询,这些查询作为文本文件提供,然后我们将其参数化。它成功地
将
所有数据发送到一个减速机--所有实际数据都在一个
大文件
中
。但是它仍然创建了200个文件,其中199个文件是空
的
!(我知道我们可能应该
使用
DISTRIBUTE BY分区列,但这是为了提供最简单
的
示例)可以通过
使用</em
浏览 0
提问于2017-10-25
得票数 1
1
回答
用于处理保
存在
HDFS
中
的
小型二进制文件
的
Spark
架构
、
、
、
、
Spark
应用程序从kafka streaming读取消息,在master(驱动程序)上收集它们,然后处理它们。我首先收集消息,因为我需要将代码移动到数据,而不是
将
数据移动到接收消息
的
位置。我读过有关hadoop
小文件
问题
的
文章,我理解这种情况下
的
问题所在。我读到HBase是保存
小文件
的
更好
的
解决方案,而不仅仅是保
存在
hdfs
中
。hadoop
小文件
中
的</
浏览 0
提问于2017-01-05
得票数 1
1
回答
multiprocessing.Process原因: OSError:[Errno 12]即使我只运行一个进程也不能分配内存
、
、
、
我试图在远程服务器(AWS)
中
处理一个非常大
的
文本文件(~11 GB)。需要对文件进行
的
处理非常复杂,对于常规
的
python程序,总
的
运行时间为1个月。为了减少运行时,我尝试在一些进程之间划分文件
的
工作。我在某个地方看到了分叉(回溯
的
最后一行)实际上是
将
RAM加倍。在处理文件时,我将它加载到内存
中
,填充了~18 it,
并
考虑到RAM
的
整个容量为30 it,确实
存在
内存分配错误。我<
浏览 2
提问于2019-03-10
得票数 1
回答已采纳
5
回答
需要更少
的
拼花面板文件
、
、
、
、
我正在进行以下过程然而,在每个分区下,有太多
的
拼图文件,而且每个文件
的
大小都很小,这会使我下面的步骤加载所有的拼图文件变得非常慢。有没有更好
的
方法,在每个分区下,创建更少
的
拼图文件,
并
增加单个拼图文件
的
大小?
浏览 6
提问于2016-08-31
得票数 2
1
回答
Spark
Dataframe正在丢失分区
、
、
、
、
我在读取
spark
数据帧时发现了这个奇怪
的
问题。我
将
数据帧重新划
分为
50k个分区。但是,当我读取数据帧
并
对其执行计数操作时,我发现当我
使用
spark
2.0时,底层rdd只有2143个分区。因此,我转到保存重新分区
的
数据
的
路径
,发现50476 因此,它在保存数据
的
同时创建了50k个paritions。然而,
浏览 11
提问于2017-08-11
得票数 4
回答已采纳
2
回答
在HDFS
中
处理总大小为100 in
的
多个
小文件
、
我
的
项目中有一个
使用
.txt处理多个PySpark消息文件
的
要求。文件从本地dir移动到HDFS
路径
(hdfs://messageDir/..)
使用
批处理和每批处理,我可以看到几千个.txt文件,它们
的
总大小约为100 is。几乎所有的文件都小于1MB。我可以知道HDFS如何存储这些文件
并
执行拆分吗?因为每个文件都小于1MB(小于64/128 MB
的
HDFS块大小),所以我认为不会发生任何分裂,但是文件将被复制并
浏览 2
提问于2018-10-21
得票数 0
回答已采纳
1
回答
如何避免
spark
流写入hdfs和s3时出现
的
小文件
问题
、
、
、
、
我在我
的
项目中
使用
了火花-SQL2.3.1v,带有java8
的
kafka。$3500(Client.java:411)问题: 这些
小文件
是否会导致火花处理
中
的
“
小文件
问题”?如果我想从给定
的
hdfs文件夹中计数记录
的
总数,该如何做?如何知道处理此类数据所需
的
堆空间?768
浏览 3
提问于2020-02-12
得票数 0
回答已采纳
2
回答
Hadoop较小
的
输入文件
、
我正在以一种稍微
不同
的
方式
使用
hadoop。在我
的
例子
中
,输入大小非常小。但是,计算时间更长。我有一些复杂
的
算法,我将在每一行输入上运行。因此,即使输入大小小于5mb,总体计算时间也超过10小时。所以我在这里
使用
hadoop。我
使用
NLineInputFormat按照行数而不是块大小拆分文件。在我
的
初始测试
中
,我有大约1500行代码(
分为
200行),与在一台机器上串行运行相比,在四个节点
的<
浏览 1
提问于2013-03-11
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据开发之用CombineFileInputFormat优化Hadoop小文件
大数据 HDFS 小文件处理方案
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
日均TB级数据,携程支付统一日志框架
Spark应用数据分片介绍
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券