Spark:在写入本地文件系统时，saveAsTextFile()只创建成功文件，不创建部件文件

Spark是一个快速、通用的大数据处理框架，它提供了丰富的API和工具，用于处理大规模数据集的分布式计算。在Spark中，saveAsTextFile()是一个用于将RDD（弹性分布式数据集）保存到本地文件系统的方法。

当使用saveAsTextFile()方法将RDD保存到本地文件系统时，它只会创建一个成功的文件，而不会创建部分文件。这是因为Spark默认使用Hadoop的文件输出格式（FileOutputFormat），该格式将数据写入一个文件中，而不是将数据分成多个部分文件。

优势：

简单易用：saveAsTextFile()方法提供了一种简单的方式来将RDD保存到本地文件系统，无需复杂的配置和操作。
可移植性：保存为文本文件的数据可以在不同的系统和环境中进行读取和处理，具有良好的可移植性。
可读性：保存为文本文件的数据可以直接被人类读取和理解，方便调试和分析。

应用场景：

数据导出：将处理后的数据导出到本地文件系统，以便进行后续的分析和处理。
数据备份：将重要的数据备份到本地文件系统，以防止数据丢失或故障。
数据共享：将数据保存为文本文件，方便与其他系统或团队共享和交换数据。

腾讯云相关产品和产品介绍链接地址：

腾讯云提供了多个与大数据处理相关的产品和服务，以下是其中一些与Spark相关的产品和服务：

腾讯云数据仓库（TencentDB for TDSQL）：提供了高性能、可扩展的云数据库服务，可用于存储和管理Spark处理后的数据。产品介绍链接：https://cloud.tencent.com/product/tdsql
腾讯云对象存储（Tencent Cloud Object Storage，COS）：提供了高可靠性、低成本的云存储服务，可用于保存Spark处理后的数据。产品介绍链接：https://cloud.tencent.com/product/cos
腾讯云弹性MapReduce（EMR）：提供了弹性、高可靠性的大数据处理服务，支持Spark等多种计算框架。产品介绍链接：https://cloud.tencent.com/product/emr

Spark:在写入本地文件系统时，saveAsTextFile()只创建成功文件，不创建部件文件

、

我正在使用以下命令将RDD写入文件：当FilePath为HDFS path (hdfs://node:9000/folder/)时，一切正常。当FilePath是本地路径(file:///home/user/folder/)时，一切似乎都正常。输出文件夹已创建，并且还存在

浏览 9提问于2017-06-14得票数 9

3回答

如何配置pyspark默认写入HDFS？

、、

默认情况下，我正在尝试将spark写入HDFS。目前，当我在RDD上调用saveAsTextFile时，它会写入我的本地文件系统。具体地说，如果我这样做：rdd.saveAsTextFile("/tmp/sample") 它将写入我的本地文件系统中一个名为/t

浏览 0提问于2017-11-28得票数 1

1回答

Spark saveAsTextFile向S3写入空文件- <directory>_$folder$

、、、

rdd.saveAsTextFile("s3n://bucket-name/path)正在创建一个文件夹名为- hadoop的空文件，hadoop-aws jar (of org.apache.hadoop)使用这个空文件将S3文件系统模仿为hadoop文件系统。但是，我的应用程序将数以千计的文件写入S3。当saveAsTextFile创建文件</em

浏览 13提问于2017-12-26得票数 2

1回答

Spark - on电子病历saveAsTextFile不会将数据写入本地目录

、、

在EMR上运行Spark (AMI 3.8)。在尝试将RDD写入本地文件时，我在name/master节点上没有得到任何结果。在我之前的EMR集群上(使用bootstrap脚本安装了相同版本的Spark，而不是作为EMR的附加组件)，数据将写入name节点上的本地目录。现在我可以看到它出现在集群中其他节点上的"/home/hadoop

浏览 2提问于2015-08-06得票数 0

1回答

saveAstextFile是Windows上的火花

我知道这是不寻常的配置，但我在Windows上安装了Spark，只是为了测试val file_in = sc.textFile("UDP_file.txt")names.saveAsTextFile("file:///file_out.txt")14/08/21 13:06:12 ERROR FileOutputCommit

浏览 3提问于2014-08-21得票数 1

2回答

将随机文件写入HDFS - PySpark

、

我在Python3环境中使用PySpark 2.0。我有随机数据，二进制数据，.jpg数据，随机字符串。我只需要将数据放回底层存储。

浏览 3提问于2017-04-20得票数 2

1回答

在群集模式SPARK中写入本地文件系统

、、、

对于spark作业，我们尝试添加一个在本地文件系统上创建自定义日志文件的日志记录框架。在客户端模式下，一切都很好，文件由启动spark-submit的用户在本地文件系统上创建。但是，在群集模式下，本地文件是使用没有写入本地目录权限的用户yarn创建的…… 有

浏览 12提问于2020-07-02得票数 0

1回答

星星之火不会在.crc上输出S3文件

、、、

当我在本地使用spark，在本地文件系统上写入数据时，它会创建一些有用的.crc文件。这是正常的吗？有办法强制在.crc上写入S3文件吗？

浏览 1提问于2018-10-15得票数 0

回答已采纳

2回答

在火花流上下文中将RDD写入HDFS

、、、、

我有一个spark 1.2.0的spark流媒体环境，我从本地文件夹中检索数据，每次我发现文件夹中添加了一个新文件时，我都会执行一些转换。val myRDD = sc.parallelize(arr) myRDD.saveAsTextFile("hdfs directory....")我的怀疑是，spark尝试在每个批处理中写入相同文件中的数据，删除之前<em

浏览 1提问于2015-07-02得票数 7

回答已采纳

1回答

星系团中的SaveAsTextFile写在哪里？

我创建了一个EC2集群，并提交了一个Spark作业，该作业在最后一步中保存为文本文件。代码读取我提交的python文件的工作目录是/root。54-172-88-52.compute-1.amazonaws.com:9000/user/root/september_2015 already exists ec2地址是我要去的主节点，但

浏览 13提问于2015-10-20得票数 1

回答已采纳

4回答

在Spark/Scala中写入HDFS读取zip文件

、、

我正在编写一个spark/scala程序，用于读取ZIP文件、解压缩它们并将内容写入一组新文件。我可以让它用于写入本地文件系统，但我想知道是否有一种方法可以将输出文件写入到分布式文件系统(如HDFS )。代码如下所示`import org.apache.spark.input.PortableDataStream i

浏览 0提问于2017-02-17得票数 1

2回答

星火saveAsTextFile创建目录

、、

我已经使用Apache在java中实现了以下代码。我在AWS EMR上运行这个程序。我刚刚从一个文件中单词计数的例子中实现了一个简单的程序。我正在从HDFS读取文件。(a, b) -> a + b);

浏览 6提问于2017-05-02得票数 2

回答已采纳

2回答

是目录的HDFS“文件”

、、、

背景--我们正在尝试将不同的文件类型(csv或parquet)读入pyspark，而我的任务是编写一个确定文件类型的程序。为什么有些文件--“文件”和“目录”？

浏览 2提问于2017-08-10得票数 0

回答已采纳

1回答

为什么在丢失的executor上成功完成的任务会被重新提交？

我们在一个任务中有一个OutOfMemoryError，导致executor被杀死。已由该执行器处理的已成功完成的任务将重新提交。由成功完成的任务创建的混洗文件应写入本地文件系统。Spark中禁用了external shuffle服务。 ?

浏览 19提问于2019-06-21得票数 1

回答已采纳

2回答

windows上的星火在saveAsTextFile中产生错误

、

我已经在我的笔记本上安装了Spark，我正在尝试执行一些非常基本的命令。除了.saveAsTextFile之外，它们中的大多数都能工作。在pyshell中，我写道nums.saveAsTextFile("file:///C:/Java/ouput") saveAsTextFile$class.saveAsTextFile(JavaRDDLi

浏览 6提问于2018-03-24得票数 0

2回答

在星火节点之间共享一个日期

我想运行一个火花作业，它输出到包含作业开始日期的某个目录。是否有一种方法在所有火花节点中共享单个日期对象(例如joda.time)，那么无论哪个节点输出什么管道，它们都输出到相同的dir结构中？

浏览 3提问于2015-05-26得票数 0

回答已采纳

2回答

利用Spark/Scala在HDFS文件中实现迭代写入

、、

我正在学习如何使用Spark/Scala对HDFS中的文件进行读写。我无法写入HDFS文件，文件已创建，但它是空的。我不知道如何创建一个用于在文件中写入的循环。代码是：import org.apache.spark.SparkConf import org.apache.spark.SparkC

浏览 1提问于2017-06-15得票数 1

1回答

使用Submit以“本地”模式使用S3目录委员会写入S3A

、、、、

我目前正在通过本地模式运行PySpark。我希望能够通过S3高效地输出拼花文件到。这个PySpark实例使用的是本地磁盘，而不是HDFS，因为它是通过spark-submit --master local[*]提交的。我可以在不启用目录提交器的情况下成功地写入我的S3实例。但是，这需要将暂存文件写入S3并重命名它们，这是缓慢和不可靠的。我希望斯派克将我的本地文件系统写成临时存储，

浏览 8提问于2021-12-24得票数 0

回答已采纳

4回答

我知道这是使用Spark的一种奇怪的方式，但是即使我在cluster mode中，我也试图使用Spark将数据存储到本地文件系统(而不是hdfs)。.jar 如果我在local mode，但在yarn-cluster mode中不工作，这很好。我已经将df.coalesce(1)部件更改为df.collect，并试图使用普通Scala保存一个文件，但最终得到了一个Permission denied。我假设这必须对clusters、dr

浏览 8提问于2016-11-24得票数 15

回答已采纳

1回答

星火独立不适用于本地文件系统

、

://spark-master:7077")services: image: bde2020/

浏览 0提问于2018-08-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark:在写入本地文件系统时，saveAsTextFile()只创建成功文件，不创建部件文件

相关·内容

Spark:在写入本地文件系统时，saveAsTextFile()只创建成功文件，不创建部件文件

如何配置pyspark默认写入HDFS？

Spark saveAsTextFile向S3写入空文件- <directory>_$folder$

Spark - on电子病历saveAsTextFile不会将数据写入本地目录

saveAstextFile是Windows上的火花

将随机文件写入HDFS - PySpark

在群集模式SPARK中写入本地文件系统

星星之火不会在.crc上输出S3文件

在火花流上下文中将RDD写入HDFS

星系团中的SaveAsTextFile写在哪里？

在Spark/Scala中写入HDFS读取zip文件

星火saveAsTextFile创建目录

是目录的HDFS“文件”

为什么在丢失的executor上成功完成的任务会被重新提交？

windows上的星火在saveAsTextFile中产生错误

在星火节点之间共享一个日期

利用Spark/Scala在HDFS文件中实现迭代写入

使用Submit以“本地”模式使用S3目录委员会写入S3A

在集群模式下用Spark将文件写入本地系统

星火独立不适用于本地文件系统

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐