将大型spark数据帧从databricks写入csv失败

、、、、

我在databricks中处理大的spark数据帧，当我试图将最终的数据帧写入csv格式时，它给了我以下错误: org.apache.spark.SparkException:作业已中止。(df,schema=mySchema1) df.write.csv("dbfs:/mnt/entracermount1

浏览 40提问于2019-11-29得票数 4

1回答

在Scala中将SQL表直接写入文件

、、

团队成员，我正在处理Azure databricks，我可以使用以下选项将数据帧写入CSV文件： df2018JanAgg.option("header", "true") .save("dbfs:/FileStore/output/df2018jan

浏览 28提问于2019-10-04得票数 1

2回答

在Pyspark (Spark 2.1.1)中，将数据帧写入磁盘花费了不现实的长时间

、、

除了写入磁盘之外，所有其他操作(读取、联接、过滤、自定义UDF)都可以快速执行。我尝试保存的数据帧的大小约为400 gb，具有200个分区。sc.getConf().getAll()我正在尝试使用以下命令进行保存： df.repartition(1).write.csv("out.csv我的一位同事提出了这样一个事实，即我们的服务器中的磁盘可能对并发写入有限制，这可能会减慢速度，但仍在对此进行调查。我想知道其他人

浏览 1提问于2017-11-28得票数 1

1回答

如何在databricks中使用pyspark将所有行数据从spark dataframe获取到文件

、、、

我正在尝试从spark dataframe中获取所有行数据到databricks中的一个文件中。我能够用很少的计数将df数据写到文件中。我可以在不跳过数据的情况下，将完成的数据从dataframe加载到文件中。我已经创建了一个udf，udf将打开文件并将数据附加到其中。我在spark sql df中调用了该udf。

浏览 1提问于2020-09-30得票数 0

2回答

使用sparkR合并大型数据集

、、

我想知道与“常规R”相比，sparkR是否可以更容易地合并大型数据集？我有12个csv文件，大约500,000行乘40列。这些文件是2014年的月度数据。我想为2014年创建一个文件。当我运行这段代码时：library(magrittr)sqlContext

浏览 2提问于2016-01-12得票数 1

1回答

使用spark进行spark数据帧写入-csv失败

、、

我正在尝试使用pysparkn和spark-csv将spark数据帧写入s3，使用以下代码 .withColumnRenamed("x",'a')\ .write\

浏览 3提问于2015-12-24得票数 0

1回答

将数据帧写入CSV - Spark 1.6

、、

我正在尝试将pyspark数据帧写入CSV。我用的是Spark1.6，我正在尝试这样的东西：df.write.format('com.intelli.spark.csv).save('mycsv.csv')和df.write.format('com.databricks.spark.csv这些代码总是会给出类似于java.lang.Class

浏览 0提问于2020-03-18得票数 0

2回答

Databricks:转换数据框并导出为xls / xlsx

、

对于Databricks:转换数据帧并导出到xls / xlsx并保存到blob存储中是可能的吗？使用Python

浏览 41提问于2019-09-30得票数 0

4回答

databricks:将spark数据帧直接写入excel

有没有办法把spark数据帧直接写成xls/xlsx格式？但是我想使用spark dataframe来处理我的数据。有什么想法吗？

浏览 0提问于2019-11-29得票数 5

2回答

将文本文件加载到Spark上下文时跳过缺少字段的行

、、

我需要将一个制表符分隔的文件加载到Spark上下文中。但是，有些字段缺少值，我需要过滤掉这些行。我正在使用下面的代码。但是，如果完全缺少该字段(例如，行中少了一个制表符)，则此代码将抛出异常。

浏览 14提问于2016-08-10得票数 0

回答已采纳

9回答

Spark -如何在没有文件夹的情况下编写单个csv文件？

、、

假设df是Spark中的一个数据帧。将df写入单个CSV文件的方法是这会将数据帧写入名为name.csv的文件夹中包含的CSV文件，但实际的CSV文件将被命名为类

浏览 8提问于2017-04-27得票数 38

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/outp

浏览 0提问于2018-10-03得票数 6

1回答

如何用数据库将CSV编写到Azure存储Gen2 (Python)

我想写reqular文件到存储，但我得到的是文件夹"sample_file.csv“和它下面的4个文件。如何从数据帧创建正常的csv文件到Azure存储Gen2？我很高兴有任何建议或链接到文章。df.coalesce(1).write.option("header"，"true").csv(TargetDirectory + "/sample_file.csv")

浏览 0提问于2020-12-01得票数 1

2回答

在csv文件中编写一个大的

、、、

我正在使用Spark2.3，我需要将一个保存到一个csv文件中，我正在寻找一种更好的方法来实现它。使用文件I/O直接写入csv是更好的方式吗？它能保护分离器吗？使用df.coalesce(1).write.option("header", "true").csv('mycsv.csv')将导致在每个文件中写入标头，当文件合并时，头部将位于中间。我说错了吗？从性能角度

浏览 2提问于2018-06-06得票数 1

4回答

如何在磁盘上将spark DataFrame保存为csv？

、、

例如，结果如下：将返回一个数组。如何在磁盘上将spark DataFrame保存为csv文件？

浏览 1提问于2015-10-16得票数 30

1回答

Spark -从csv文件创建数据帧并删除该文件

、

我正在尝试从本地文件系统读取csv文件，从该文件创建数据帧，删除该文件并返回该数据帧。是的，我必须删除它。因为除了删除之外，所有的事情都是懒惰的，所以应用程序会失败，因为当代码执行时，它找不到文件。def do_something() : DataFrame { val file = File.createTempFile("query2Output", ".csv")/

浏览 7提问于2017-03-14得票数 1

回答已采纳

1回答

在Scala中使用dataset创建CSV

、、

我已经从scala中的数据集创建了CSV文件。它正在创建CSV文件，但是它是0字节的。当通过dbutils.fs.head(csv_path)读取时，其给出的错误 "java.lang.IllegalArgumentException:无法指向目录: csv_path“ ```result_dataset.coalesce(1) .write.format("com.databricks.spark.csv&quo

浏览 35提问于2020-10-15得票数 0

3回答

如何将数据写入Spark中的单个(正常) csv文件？

、、、

我正在尝试将数据帧保存为本地驱动器中的CSV文件。但是，当我这样做时，我会生成一个文件夹，并在该分区文件中写入。是否有任何克服这一问题的建议？My Requirement:获取代码中给出的具有实际名称的普通csv文件。代码片段： dataframe.coalesce(1).write.mode("overwrite").format("com.databricks.spark.csv").opt

浏览 0提问于2017-11-01得票数 2

2回答