正在尝试将数据帧数据写入CSV文件。在Spark中

、、

我在一台有多个CPU的服务器上运行Pyspark。除了写入磁盘之外，所有其他操作(读取、联接、过滤、自定义UDF)都可以快速执行。我尝试保存的数据帧的大小约为400 gb，具有200个分区。sc.getConf().getAll()我正在尝试使用以下命令进行保存： df.repartition(1).write.csv("out.csv另外，在</em

浏览 1提问于2017-11-28得票数 1

2回答

Databricks:转换数据框并导出为xls / xlsx

、

对于Databricks:转换数据帧并导出到xls / xlsx并保存到blob存储中是可能的吗？使用Python

浏览 41提问于2019-09-30得票数 0

1回答

pyspark在输出中写入许多较小的文件

、、

我正在使用pyspark处理一些数据，并将输出写入S3。我已经在athena中创建了一个表，它将用于查询此数据。数据采用json字符串的形式(每行一个)，spark代码读取文件，根据特定字段对其进行分区，并写入S3。对于一个1.1 GB的文件，我看到spark正在写入36个文件，每个文件大小大约为5 MB。<

浏览 5提问于2019-12-16得票数 2

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user&

浏览 0提问于2018-10-03得票数 6

1回答

获取spark数据帧写入的文件名

、、、、

我使用下面的代码将spark数据帧写入s3存储桶中。spark_df. \write. \mode("overwrite"). \在这里

浏览 0提问于2018-06-18得票数 1

1回答

如何在databricks中使用pyspark将所有行数据从spark* dataframe获取到文件*

、、、

我正在尝试从spark dataframe中获取所有行数据到databricks中的一个文件中。我能够用很少的计数将df数据写到文件中。假设我在df中得到的计数是100，那么在文件中它的计数是50，所以它跳过了data.How。我可以在不跳过数据的情况下，<

浏览 1提问于2020-09-30得票数 0

1回答

使用spark进行spark数据帧写入-csv失败

、、

我正在尝试使用pysparkn和spark-csv将spark数据帧写入s3，使用以下代码 .withColumnRenamed"x",'a')\

浏览 3提问于2015-12-24得票数 0

1回答

如何将Spark* Dataframe保存到Hana Vora表？*

、、、

我们有一个文件，我们想要分成3个，在导入到Hana Vora之前，我们需要对它进行一些数据清理-否则一切都必须以字符串的形式输入，这是不理想的。我们可以很好地在spark中导入和准备DataFrames，但是当我尝试写入HDFS文件系统或者更好地将其保存为"com.sap.spark.vora“数据源中的一个表时，我得到了错误。有人能建议一种可靠的方法将spark

浏览 0提问于2016-10-17得票数 0

1回答

无法将Dataframe结果作为配置单元表/LFS文件写入

、、

将过滤后的数据写入文件时遇到问题。在本地文件系统中创建了大约27个文件，但没有输出。下面是使用的代码：val in_df=spark.read.csv("file:///home/Desktop/Project/inputdata.csv&quo

浏览 0提问于2020-07-07得票数 0

1回答

、、、

每当我尝试运行我的代码时，我都会得到这个错误。 (错误执行器:阶段0.0中任务0.0中的异常) 我的代码： import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession"local[*]", "savingCSV") // 1. reading file as

浏览 15提问于2021-08-12得票数 0

1回答

无法将CSV* pyspark数据帧导出到C:\temp*

、、、、

我使用以下命令将数据框导出到C:/temp： c5.toPandas().to_csv("C:/temp/colspark.csv") 但我得到以下错误： <ipython-input-4-2c57938dba1e> in <module> S:\tdv\ab\e

浏览 28提问于2019-10-03得票数 1

回答已采纳

1回答

如何使用Apache spark* java api读取csv文件并将其保存到多个表中。*

、

我需要读取具有多个列的csv文件，并使用Apache spark java api将其保存到多个表中。如果有人能帮上忙请帮帮忙。

浏览 4提问于2021-09-24得票数 0

1回答

在palantir foundry中，如何在不使用transform或transform_df的情况下导入和读取数据集？

、、

我想知道有什么方法可以在不使用transform_df或在代码存储库中进行转换的情况下导入文件。基本上，我希望从数据集中提取数据，并以列表的形式返回所有值。如果我使用transform或transform_df装饰器，那么在调用返回函数时将无法访问输入文件。

浏览 11提问于2021-08-05得票数 1

3回答

如何将数据写入Spark中的单个(正常) csv文件？

、、、

我正在尝试将数据帧保存为本地驱动器中的CSV文件。但是，当我这样做时，我会生成一个文件夹，并在该分区文件中写入。是否有任何克服这一问题的建议？My Requirement:获取代码中给出的具有实际名称的普通csv文件。代码片段： dataframe.coalesce(1).write.mode("overwrite&q

浏览 0提问于2017-11-01得票数 2

1回答

在Scala中将SQL表直接写入文件

、、

团队成员，我正在处理Azure databricks，我可以使用以下选项将数据帧写入CSV文件： df2018JanAgg.option("header", "true") .save("dbfs:/FileStore/output/df2018jan

浏览 28提问于2019-10-04得票数 1

2回答

使用dataframe scala创建文件名为时间戳的csv文件

、、、

我有一个数据帧，数据如下。|1.0 ||football |2.0 |我想将上面的数据帧写入一个csv文件，其中的文件名将使用当前时间戳创建。generatedDataFrame.write.mode ("append") .format("com.databrick

浏览 29提问于2021-03-02得票数 2

回答已采纳

1回答

PySpark将两个数据文件写入同一个分区，但由文件夹分隔

、、、

我使用Spark将两个不同的数据文件写入到同一个分区，但我希望它们在分区的末尾被文件夹分隔。也就是说，第一个数据帧将写入yyyy/mm/dd/，第二个数据帧将写入yyyy/mm/dd/rejected/ 目前，我可以使用以下代码将第一个<em

浏览 0提问于2020-07-12得票数 1

回答已采纳

3回答

从Spark写入配置单元表，将CSV指定为格式

、、、

我在写来自Spark的Hive表时遇到了问题。下面的代码可以很好地工作；我可以写出表格(默认使用拼接格式)，然后在Hive中读回它：OKTime taken: 0.021 seconds, Fetched: 1 row(s)df.w

浏览 0提问于2017-08-15得票数 2

1回答

如何根据字段将数据从CSV加载到单独的Hadoop HDFS目录

、

我有一个CSV数据，需要根据某个字段(年份)将其加载到HDFS目录中。我计划使用Java。我已经考虑过使用BufferedReader，但是我在实现它时遇到了问题。

浏览 34提问于2021-11-03得票数 0

回答已采纳

1回答

如何在Spark中加速大数据帧连接

、、

我在Spark 2.4中有两个数据帧，它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3加载数据帧生成的，另一种是加载一堆数据帧并使用sparkSQL生成大型数据帧。然后我将这两个数据帧多次连接到多个数据帧中，并尝试将它们作为CSV<e

浏览 12提问于2020-05-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Pyspark (Spark 2.1.1)中，将数据帧写入磁盘花费了不现实的长时间

Databricks:转换数据框并导出为xls / xlsx

pyspark在输出中写入许多较小的文件

如何在pyspark中将重复列名的数据帧写入csv文件

获取spark数据帧写入的文件名

如何在databricks中使用pyspark将所有行数据从spark* dataframe获取到文件*

使用spark进行spark数据帧写入-csv失败

如何将Spark* Dataframe保存到Hana Vora表？*

无法将Dataframe结果作为配置单元表/LFS文件写入