如何使用Spark将输出写为现有HDFS目录下的单独文件？

使用Spark将输出写为现有HDFS目录下的单独文件，可以通过以下步骤实现：

导入必要的Spark库和模块：

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

创建SparkSession：

val sparkConf = new SparkConf().setAppName("SparkHDFSWrite").setMaster("local")
val spark = SparkSession.builder().config(sparkConf).getOrCreate()

读取数据并进行处理：

val data = spark.read.textFile("hdfs://<HDFS路径>")
// 进行数据处理和转换操作
val processedData = data.map(...)

将处理后的数据写入HDFS目录下的单独文件：

processedData.write.mode("overwrite").text("hdfs://<HDFS目录>/<文件名>")

其中，mode("overwrite")表示如果目标文件已存在，则覆盖原文件。

完整的示例代码如下：

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

object SparkHDFSWrite {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("SparkHDFSWrite").setMaster("local")
    val spark = SparkSession.builder().config(sparkConf).getOrCreate()

    val data = spark.read.textFile("hdfs://<HDFS路径>")
    // 进行数据处理和转换操作
    val processedData = data.map(...)

    processedData.write.mode("overwrite").text("hdfs://<HDFS目录>/<文件名>")
  }
}

请注意，上述示例中的<HDFS路径>和<HDFS目录>/<文件名>需要替换为实际的HDFS路径和目录路径。

推荐的腾讯云相关产品：腾讯云对象存储（COS）

概念：腾讯云对象存储（COS）是一种高扩展性、低成本、可靠安全的云端存储服务，适用于存储大规模非结构化数据。
分类：对象存储
优势：高可靠性、高可用性、低成本、数据安全、灵活性、可扩展性
应用场景：大规模数据存储、静态网站托管、备份与恢复、多媒体存储与处理等
产品介绍链接地址：腾讯云对象存储（COS）

注意：以上答案仅供参考，具体实现方式可能因环境和需求而异。

如何使用Spark将输出写为现有HDFS目录下的单独文件？

、、

我有一个用例，需要在现有的HDFS目录下将输出写成一个单独的文件。当我使用sparkContext.saveAsHadoopFile()方法时，抛出一个异常，说明输出目录已经存在。目前，我可以使用Hadoop客户端库并将其作为Spark的任务启动，下面是代码示例代码片段。我想知道我们是否可以使用Spark的库函

浏览 109提问于2020-07-13得票数 0

1回答

星火中的本地磁盘配置

嗨，官方的火花文件说：虽然Spark可以在内存中执行大量的计算，但它仍然使用本地磁盘来存储不适合RAM的数据，并保留中间级之间的输出。我们建议每个节点有4-8个磁盘，配置时没有RAID (就像单独的挂载点一样)。在Linux中，使用noatime选项挂载磁盘，以减少不必要的写入。在Spark中，将spark.local.di

浏览 1提问于2017-08-11得票数 1

1回答

使用HDInsights集群中的Spark未保存在Azure blob中的文件

、、、、

我们已经在Azure上设置了HDInsights集群，Blob作为Hadoop的存储空间。我们尝试使用Hadoop将文件上传到hadoop，然后将这些文件上传到Azure Blob。用于上载的命令：然而，当我们尝试使用Spark将文件写到Hadoop时，它不是上传到Azure Blob存储，而是上传到hd

浏览 2提问于2022-06-14得票数 0

回答已采纳

1回答

我有下面的，可以在官方的apache/spark上找到。我花了很多时间了解如何在Hortonworks Hadoop Sandbox中运行这个示例，但没有成功。这就是我要做的：将SparkSession设置为主从本地，将spark.sql.warehouse.dir更改为hive.metastore.uris，并将节俭://localhost:9083(如我在安巴里的蜂巢中看到的那样)设置<em

浏览 2提问于2017-12-18得票数 1

回答已采纳

1回答

Delta Lake将多个文件压缩为单个文件

、

我目前正在探索delta，这是由databricks开源的。我正在读取kafka数据，并使用delta lake格式将其写入为流。Delta lake在从kafka进行流式写入的过程中创建了许多文件，我觉得kafka是hdfs文件系统的核心。我已经尝试过将多个文件压缩为单个文件。val spark = SparkSession.builder .mas

浏览 16提问于2019-10-13得票数 4

回答已采纳

1回答

用S3实现火花i/o

、、

从阅读下面的内容将数据附加到现有数据集的时间更长，尤其是所有星火作业都已经完成，但您的命令尚未完成，，这是因为驱动程序节点将任务的输出文件从作业临时目录逐个移动到最终目标，这在云存储(启用此优化: spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 我想检查粗体语句是否为真。我从未听说过火花驱动程序使用S3

浏览 8提问于2022-12-04得票数 0

1回答

递增添加到蜂巢表w/Scala +Spark1.3

、、

我们的集群有Spark1.3，而Hive有一个大型的Hive表，我需要向其中添加随机选择的行。有一个较小的表，我读取并检查一个条件，如果该条件为真，那么我将获取所需的变量，然后查询要填充的随机行。我所做的就是在这个条件下执行一个查询，table.where(value<number)，然后使用take(num rows)使它成为一个数组。然后，由于所有这些行都包含我所需的信息

浏览 3提问于2016-04-26得票数 1

回答已采纳

3回答

HDFS和Spark:编写文件并从另一个程序重用它的最佳方式

、、

我在HDFS中保存了一些来自Spark应用程序的结果，文件名为part-r-0000X (X= 0，1等)。而且，因为我想将整个内容连接到一个文件中，所以我使用以下命令：前面的命令在一个bash脚本中使用，该脚本将输出目录(保存part-r-...文件的位置)设为空，并在一个循环中执行上面的getme

浏览 12提问于2018-07-21得票数 1

回答已采纳

2回答

处理存储在红移中的数据

、、

我们目前使用Redshift作为数据仓库，我们对此非常满意。然而，我们现在需要对我们仓库中的数据进行机器学习。考虑到所涉及的数据量，理想情况下，我希望在与数据相同的位置运行计算，而不是在数据周围移动，但这在Redshift看来是不可能的。我目前正在考虑将数据转移到EMR，并使用Apache机器学习库(或者H20、Mahout或其他什么)来处理它。所以我的问题是：如果没有，我应该如何使星火能

浏览 1提问于2014-11-12得票数 3

1回答

外部表未从火花流编写的拼花文件中更新

、、、

我使用火花流将聚合的输出写入到使用SaveMode.Append的hdfs中。我有一个外部表，创建如下：USING org.apache.spark.sql.parquet path"hdfs:////"我的印象是，对于外部表，查询也应该从新增<e

浏览 4提问于2015-11-19得票数 4

4回答

火花基本面

、、

在复习基本面时，我不太清楚一些基本的事情：查询1.对于分布式处理--可以不使用HDFS - Hadoop文件系统而在集群上工作(比如创建自己的分布式文件系统)，还是需要一些基本的分布式文件系统，如HDFS查询2.如果我们已经在HDFS中加载了一个文件(作为分布式块)，那么Spark将再次将其转换为块，并在其级别上重新分发(用于分布式处理)，或者只使用</

浏览 7提问于2015-08-24得票数 1

回答已采纳

2回答

Apache和Nifi集成

、

我想将Nifi流文件发送到Spark，并在Spark中进行一些转换，然后再次将结果发送回Nifi，以便我能够在Nifi中进一步操作。我不想写流文件写到数据库或HDFS，然后触发火花作业。我想直接发送流文件到星火和接收结果直接从火花到尼菲。我试过在Nifi中使用ExecuteSparkInteractive处理器，但我被卡住了。任何例子都会有帮助。

浏览 1提问于2018-10-31得票数 8

回答已采纳

1回答

使用spark(Scala)从hdfs读取文件

、、

请告诉我如何从hdfs读取文件。我刚刚开始使用Scala和Spark。我可以读取一个位于文件夹中的单独文件： val parqDF = spark.read.parquet("hdfs://nn1home:8020/user/stg/ads/year=2020/month=1/day=1/16_dat

浏览 2提问于2022-05-23得票数 0

回答已采纳

3回答

使用火花作业从共享/NFS安装位置将文件/数据放入HDFS，出现间歇性问题

、、、、

我创建了一个用于将abc.txt从/data/nfsshare位置复制到HDFS的小火花作业，并在HDFS中执行单词计数和保存其结果。( 2)有时/断断续续地出现作业状态，但输出目录是用所需的数据创建的。3)输出目录已经存在:有时HDFS输出目录会出现问题->通过增加执行器和驱动程序内存来解决 ->我尝试在集群模式和客户端部署模式下运行此作业，但在这两种情况下我都遇到了相同<

浏览 6提问于2017-06-21得票数 0

回答已采纳

1回答

Mobius SparkClr入门(在Linux上)

、

我希望在现有的(独立的) spark集群(在Ubuntu Linux上)上试用C#驱动程序，我可以通过python或scala与之进行愉快的交互。我不清楚如何运行一个简单的c#示例，因为我已经将最新的Mobius发行版下载到了linux box。我不清楚的是clr spark提交所需的两个额外参数(除了通常需要的参数之外)。当我尝试按照文档中的提交参数操作时，我遇

浏览 4提问于2017-01-27得票数 1

1回答

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

、、、

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件scala> sc.stop() scala

浏览 12提问于2018-12-21得票数 1

回答已采纳

1回答

使用spark/scala将文件从子目录复制到hdfs中的基目录

、、、、

每次作业运行时，我都会在hdfs基本目录下创建文件夹。每个文件夹下都有.dat文件。例如。基目录：- /user/srav/子目录：- /user/srav/20190101 /user/srav/20180101 我的子目录/user/

浏览 0提问于2019-10-30得票数 0

1回答

星星之火:如何将字节字符串写到hdfs* hadoop中，以便进行火花-xml转换？*

、、

Value>') 问题:如何将字符串保存到hdfs上的pyspark中的xml文件中：背景:大量xml文件是由第三方web提供<e

浏览 0提问于2021-01-14得票数 2

回答已采纳

7回答

HDFS错误put：` `input'：没有这样的文件或目录

、、、

我正在尝试伪分布式设置，并且遵循上的说明，我被困在第五步，即当我运行命令时我得到了下面的错误。

浏览 5提问于2015-02-02得票数 9

2回答

如何控制Spark* job在写入时创建的输出部品文件的数量？*

、、、

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。完成工作后，我通常使用以下代码进行保存dataFrame.write.format("orc").save("/path/in/hdfs") //storing as OR

浏览 4提问于2015-07-06得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Spark将输出写为现有HDFS目录下的单独文件？

相关·内容

如何使用Spark将输出写为现有HDFS目录下的单独文件？

星火中的本地磁盘配置

使用HDInsights集群中的Spark未保存在Azure blob中的文件

运行示例时出错

Delta Lake将多个文件压缩为单个文件

用S3实现火花i/o

递增添加到蜂巢表w/Scala +Spark1.3

HDFS和Spark:编写文件并从另一个程序重用它的最佳方式

处理存储在红移中的数据

外部表未从火花流编写的拼花文件中更新

火花基本面

Apache和Nifi集成

使用spark(Scala)从hdfs读取文件

使用火花作业从共享/NFS安装位置将文件/数据放入HDFS，出现间歇性问题

Mobius SparkClr入门(在Linux上)

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

使用spark/scala将文件从子目录复制到hdfs中的基目录

星星之火:如何将字节字符串写到hdfs* hadoop中，以便进行火花-xml转换？*

HDFS错误put：` `input'：没有这样的文件或目录

如何控制Spark* job在写入时创建的输出部品文件的数量？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐