使用spark将大文件拆分为小文件并保存在不同的路径中

、

如何将一个大文件/RDD/DF拆分成小文件并保存到不同的路径。val namesRDD=sc.textfile("readPath")如何将</e

浏览 6提问于2018-07-18得票数 0

回答已采纳

3回答

如何将HDFS小文件合并为一个大文件？

、、、

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。有什么建议吗？

浏览 9提问于2018-07-26得票数 0

1回答

Spark scala :将csv文件上载到azure blob时出现文件已存在异常

、、、

将其转换为csv并尝试将csv上传到azure blob。但是，对于MBs中的小文件，我可以使用以下spark scala代码成功地完成相同的操作。import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContextimport co

浏览 1提问于2017-03-30得票数 0

2回答

写入相同数据量的多个文件与写入相同数据量的单个大文件

、、

我想在本地磁盘上写一个大文件。我将大文件分割成许多小文件，并尝试将其写入磁盘。但我观察到，当我拆分文件并尝试写入时，磁盘写入时间会大大增加。此外，我从磁盘复制文件，并将其写入另一台计算机的磁盘(Reducer)。我观察到读取时间也有很大的增加。有人能给我解释一下原因吗？我正在使用hadoop。谢谢!

浏览 0提问于2012-10-31得票数 2

回答已采纳

2回答

如何对大文件进行排序(不适合于RAM)

、、

收集数据例如，以包含数字的500 in文件为例，作为步骤1的输出。每一行一个数字。步骤2将如何在不读取整个输入文件的情况下有效地排序数字？

浏览 7提问于2014-06-19得票数 1

2回答

蜂箱分区、火花分区和加入火花-它们之间的关系

、、、

试图理解Hive分区是如何与Spark分区相关联的，最后提出了一个关于联接的问题。").as[Table2Row])假设我现在使用的是RDD，而不是： val rdd1 = table1.r

浏览 4提问于2018-04-25得票数 5

1回答

git lfs在Ubuntu 18.04上推动github失败

、、、

由于文件大小和建议使用git，对GitHub的推送失败了。在发生此错误后，我的同事将一个.gitattributes文件推送到GitHub上的远程主分支，其中包含以下内容：然后，我将我的特性分支与master一起重新构建，以便将这个文件放入我的特性分支中。，并使用类似的推送失败错误消息(由于大小较大)。然后我搜索<e

浏览 1提问于2021-05-29得票数 0

回答已采纳

1回答

Apache Spark* DAGScheduler数据流*

、、

我正在尝试理解Apache Spark调度程序到底是如何工作的。为此，我设置了一个包含一个master和两个worker的本地集群。我只提交了一个应用程序，它简单地读取4个文件(2个小文件(~10MB)和2个大文件(~1.1 the ))，连接它们并收集结果。另外，我在内存中缓存了这两个小文件。我正在使用FIFO.I运行独立的集群模式，我知道阶段是如何形成的，但我不知道数据流是如何确定的</

浏览 0提问于2018-02-27得票数 0

1回答

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

、、、、

我正在使用HDFS -接收器-连接器来使用Kafka的数据进入HDFS。这个目录是按日期创建的；所以我想通过每天的批处理将许多小文件合并到一个大文件中是很棒的。(我预计HDFS将自动<e

浏览 7提问于2022-03-22得票数 0

回答已采纳

1回答

为大文件和小文件创建NSFileHandle之间是否存在性能差异？

、、

这个问题让我觉得很傻，但我只想检查一下自己的理智。出于各种原因，我将一堆文件焊接成一个大文件，然后将其作为资源打包到我的iOS应用程序中。然后，我使用NSFileHandle打开文件，查找到正确的位置，然后读出我想要的字节。这种方式和读取松散文件之间有性能上的区别吗？或者，假设我可以选择只使用一个单片大小的大文件，而不是10个中等大小(但仍然连接)的文件，那么“

浏览 1提问于2012-11-02得票数 0

回答已采纳

1回答

如何使用spark创建大文件的较小子集

、、

我有一大堆相关的文件。我想用较大文件中的数据子集生成较小文件。我如何使用apache spark来获得它？我想要的只是一个文件中的df.show输出。Spark已经将结果聚合到驱动程序

浏览 5提问于2018-11-30得票数 0

5回答

通过多线程处理大文件

、、

磁盘上有一个相当大的文件(>10G)，fie中的每一行都由一个行号和一个人的名字组成，如下所示：2 Perk4 PerkPerk 2Sime 1 按照面试官的要求，上述工作应尽可能高效地完成，并允许多线程。我的解决方案是这样<

浏览 4提问于2012-07-19得票数 6

回答已采纳

3回答

如何合并spark* SQL查询的结果以避免大量小文件/避免空文件*

、、

上下文:在我们的数据管道中，我们使用spark运行来自最终用户的大量查询，这些查询作为文本文件提供，然后我们将其参数化。它成功地将所有数据发送到一个减速机--所有实际数据都在一个大文件中。但是它仍然创建了200个文件，其中199个文件是空的！(我知道我们可能应该使用DISTRIBUTE BY分区列，但这是为了提供最简单的示例)可以通过使用</em

浏览 0提问于2017-10-25得票数 1

1回答

用于处理保存在HDFS中的小型二进制文件的Spark架构

、、、、

Spark应用程序从kafka streaming读取消息，在master(驱动程序)上收集它们，然后处理它们。我首先收集消息，因为我需要将代码移动到数据，而不是将数据移动到接收消息的位置。我读过有关hadoop小文件问题的文章，我理解这种情况下的问题所在。我读到HBase是保存小文件的更好的解决方案，而不仅仅是保存在hdfs中。hadoop小文件中的</

浏览 0提问于2017-01-05得票数 1

1回答

multiprocessing.Process原因: OSError：[Errno 12]即使我只运行一个进程也不能分配内存

、、、

我试图在远程服务器(AWS)中处理一个非常大的文本文件(~11 GB)。需要对文件进行的处理非常复杂，对于常规的python程序，总的运行时间为1个月。为了减少运行时，我尝试在一些进程之间划分文件的工作。我在某个地方看到了分叉(回溯的最后一行)实际上是将RAM加倍。在处理文件时，我将它加载到内存中，填充了~18 it，并考虑到RAM的整个容量为30 it，确实存在内存分配错误。我<

浏览 2提问于2019-03-10得票数 1

回答已采纳

5回答

需要更少的拼花面板文件

、、、、

我正在进行以下过程然而，在每个分区下，有太多的拼图文件，而且每个文件的大小都很小，这会使我下面的步骤加载所有的拼图文件变得非常慢。有没有更好的方法，在每个分区下，创建更少的拼图文件，并增加单个拼图文件的大小？

浏览 6提问于2016-08-31得票数 2

1回答

Spark Dataframe正在丢失分区

、、、、

我在读取spark数据帧时发现了这个奇怪的问题。我将数据帧重新划分为50k个分区。但是，当我读取数据帧并对其执行计数操作时，我发现当我使用spark 2.0时，底层rdd只有2143个分区。因此，我转到保存重新分区的数据的路径，发现50476 因此，它在保存数据的同时创建了50k个paritions。然而，

浏览 11提问于2017-08-11得票数 4

回答已采纳

2回答

在HDFS中处理总大小为100 in的多个小文件

、

我的项目中有一个使用.txt处理多个PySpark消息文件的要求。文件从本地dir移动到HDFS路径(hdfs://messageDir/..)使用批处理和每批处理，我可以看到几千个.txt文件，它们的总大小约为100 is。几乎所有的文件都小于1MB。我可以知道HDFS如何存储这些文件并执行拆分吗？因为每个文件都小于1MB(小于64/128 MB的HDFS块大小)，所以我认为不会发生任何分裂，但是文件将被复制并

浏览 2提问于2018-10-21得票数 0

回答已采纳

1回答

如何避免spark流写入hdfs和s3时出现的小文件问题

、、、、

我在我的项目中使用了火花-SQL2.3.1v，带有java8的kafka。$3500(Client.java:411)问题：这些小文件是否会导致火花处理中的“小文件问题”？如果我想从给定的hdfs文件夹中计数记录的总数，该如何做？如何知道处理此类数据所需的堆空间?768

浏览 3提问于2020-02-12得票数 0

回答已采纳

2回答

Hadoop较小的输入文件

、

我正在以一种稍微不同的方式使用hadoop。在我的例子中，输入大小非常小。但是，计算时间更长。我有一些复杂的算法，我将在每一行输入上运行。因此，即使输入大小小于5mb，总体计算时间也超过10小时。所以我在这里使用hadoop。我使用NLineInputFormat按照行数而不是块大小拆分文件。在我的初始测试中，我有大约1500行代码(分为200行)，与在一台机器上串行运行相比，在四个节点的<

浏览 1提问于2013-03-11得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将HDFS小文件合并为一个大文件？

Spark scala :将csv文件上载到azure blob时出现文件已存在异常

写入相同数据量的多个文件与写入相同数据量的单个大文件

如何对大文件进行排序(不适合于RAM)

蜂箱分区、火花分区和加入火花-它们之间的关系

git lfs在Ubuntu 18.04上推动github失败

Apache Spark* DAGScheduler数据流*

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

为大文件和小文件创建NSFileHandle之间是否存在性能差异？

如何使用spark创建大文件的较小子集

通过多线程处理大文件

如何合并spark* SQL查询的结果以避免大量小文件/避免空文件*

用于处理保存在HDFS中的小型二进制文件的Spark架构

multiprocessing.Process原因: OSError：[Errno 12]即使我只运行一个进程也不能分配内存

需要更少的拼花面板文件

Spark Dataframe正在丢失分区

在HDFS中处理总大小为100 in的多个小文件

如何避免spark流写入hdfs和s3时出现的小文件问题

Hadoop较小的输入文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐