如何将数据帧中的数据写入HDFS中的单个.parquet文件(包括单个文件中的数据和元数据)？

文章/答案/技术大牛

发布

2回答

、、、、

如何将数据帧中的数据写入HDFS中的单个.parquet文件(包括单个文件中的数据和元数据)？", format="parquet") 如果我使用上面的命令

浏览 20提问于2017-03-15得票数 6

3回答

在独立星火上合并拼花文件

、

有没有一种简单的方法可以将DataFrame保存到单个parquet文件中，或者将包含元数据的目录和sqlContext.saveAsParquetFile()生成的parquet文件的部分合并到一个存储在NFS上的文件中，而无需使用HDFS和hadoop？

浏览 3提问于2015-08-31得票数 2

回答已采纳

1回答

如何在PySpark中将Parquet文件编写为来自Dataframe的输出时，如何在HDFS中创建元数据文件？

、、、

我有一个火花转换程序，它读取2个Parquet文件，并创建一个最终的Dataframe，然后写入HDFS中另一个目录中的Parquet文件。是否有方法在HDFS中的同一个目录中创建Parquet的元数据/架构文件？我们需要这个元

浏览 2提问于2020-05-09得票数 1

回答已采纳

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

、、、

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，如不是拼图

浏览 20提问于2019-05-25得票数 0

1回答

插入Parquet文件生成512 MB文件。如何生成1GB文件？

、、

我正在测试Parquet文件格式并使用Impala外部表将数据插入到Parquet文件中。下面是可能影响Parquet文件大小的参数集：PARQUET_COMPRESSION_CODEC: none我使用下面的insert语句写入Parquet文件。whe

浏览 2提问于2014-09-17得票数 2

回答已采纳

1回答

如何将数据帧中的数据写入单个.parquet文件(单个文件中的数据和元数据)到亚马逊S3？

、

我正在尝试根据S3的某个键(按名称分区)将DF写入单个拼图文件中。我的要求是每次运行都要将数据附加到相同的parquet文件中。这是我使用的代码，但这段代码为该文件夹中的每个名称创建了文件夹，以便每次运行其创建新的拼图文件。但是，我的要求是写入</e

浏览 15提问于2019-03-01得票数 0

5回答

读取地块文件时刷新Dataframe的元数据

、、、

我正在尝试将拼图文件作为数据帧读取，它将定期更新(路径为/folder_name。每当有新数据到来时，旧的地块文件路径(/folder_name)将被重命名为临时路径，然后我们合并新数据和旧数据并将其存储在旧路径(/folder_name)中。发生的情况是，假设我们在更新之前有一个拼图文件作为hdfs://fold

浏览 1提问于2019-11-08得票数 4

1回答

是什么决定了parquet文件缓冲区的大小？

、、、

我用火花壳编写了一个DataFrame到hdfs中，得到了下面的输出。我想要了解的是，是什么决定了正在编写的拼花文件的大小？我的dfs.block.size设置为：res1: String= 134217728 这是128 my，那么为什么我的文件在20,000,000字节

浏览 1提问于2018-11-13得票数 1

回答已采纳

2回答

如何从hadoopish文件夹加载拼花文件

、、、、

如果我用Java以这种方式保存数据帧，.：.然后就会以一种草率的方式保存它(一个包含大量文件的文件夹)。是否可以将数据帧保存为单个文件？我试过collect()，但没有用。如果这是不可能的，那么我的问题是如何更改Python代码，以便从df.writ

浏览 4提问于2017-05-21得票数 0

回答已采纳

1回答

HDFS & Spark -重写大文件的一部分

、

如何重写部分大文件(1TB以上)？我将数据存储在拼图文件中，它们按最大块大小拆分。有没有可能更新一些记录并只重写那些块而不重写。

浏览 17提问于2019-01-14得票数 0

1回答

更改spark _temporary目录路径，避免删除parquets

、、

当两个或多个Spark作业具有相同的输出目录时，相互删除文件将不可避免。我正在使用spark 2.4.4在append模式下写入一个数据帧，我想在spark的tmp目录中添加一个时间戳，以避免这些删除。示例：使用其他数据调用相同的spark作

浏览 20提问于2020-03-19得票数 1

3回答

随着分区的增加，spark拼接写入变慢

、、

我有一个火花流应用程序，从流写入拼花数据。(Config.eventsS3Path) 这段代码每小时运行一次，但是随着时间的推移，写到parquet的速度变慢了。刚开始的时候，写入数据需要15分钟，现在需要40分钟。对于该路径中存在数据，这需要一定的时间。我尝试在一个新的位置运行相同的应用程序，运行速度很快。我已经禁用了schemaMerge和汇

浏览 3提问于2016-09-16得票数 15

1回答

Spark :如何过滤列并执行操作，最终将所有列写入文件？

、

我正在将一个文件读入包含许多列和行的数据帧中，但我对单个列执行我的操作(重新分区、过滤等)感兴趣，所以我计划过滤不需要的列，但当我将最终数据帧写入另一个输出文件时，我如何才能包括所有被过滤掉的列？我正在读取所有输入路径，如下所示： val inputDF = spark.read.parquet(path).s

浏览 1提问于2019-07-28得票数 0

1回答

如何取消在另一个数据帧之上创建的缓存数据帧的持久化

、

如何取消在另一个数据帧之上创建的缓存数据帧的持久化在将最终df保存到hd

浏览 0提问于2020-12-25得票数 0

回答已采纳

2回答

如何将火花流应用程序的输出写入单个文件

、、、、

我正在使用星火流读取Kafka的数据，并将其传递到py文件进行预测。它返回预测以及原始数据。它将原始数据与其预测保存到文件中，但是它正在为每个RDD创建一个文件。我需要一个单一的文件，包括收集的所有数据，直到我停止程序被保存到一个文件。我尝试过writeStream，它甚至没有创建一个文件。我尝试过使用附加文件</em

浏览 5提问于2019-08-19得票数 2

回答已采纳

1回答

将Mapreduce作业的Reducer输出写入单个文件

、、

我已经为HBase中的数据编写了一个map-reduce作业。它包含多个映射器和一个reducer。Reducer方法接收从映射器提供的数据，并对其进行一些分析。在完成对HBase中所有数据的处理后，我想通过单个Reducer将数据写回HDFS中的一个文件。目前，我可以在每次获得新的数据时将数据</em

浏览 2提问于2013-07-11得票数 1

回答已采纳

1回答

hadoop/hdfs中的默认存储文件格式

、、

我正在建立一个新的hadoop集群(这个阶段是实验性的)。我希望对其进行配置，以便每当将文件复制到集群(通过copyFromLocal或使用sqoop等)时，hadoop/hdfs应该以拼板文件格式存储数据。这件事我期待的对吗？有可能吗？我认为应该有一个hdfs级别的配置参数，在那里我可以指定在存储数据时使用哪种格式，但不知怎么找不到。想知道我是不是漏掉了什么东西。

浏览 2提问于2015-11-06得票数 1

回答已采纳

8回答

如何从parquet文件中获取架构/列名？

、、、

我在HDFS中有一个文件存储为part-m-00000.gz.parquet 我尝试过运行hdfs dfs -text dir/part-m-00000.gz.parquet，但是它是压缩的，所以我运行了gunzip part-m-00000.gz.parquet，但是它不解压缩文件，因为它不识别.parquet扩展名。如何获得此文件的架构/列名？

浏览 4提问于2015-11-24得票数 48

回答已采纳

2回答

如果HDFS主要用于对象存储，为什么要将ORC格式引入HDFS

、、

众所周知，HDFS基本上是一个对象存储系统，其中数据一旦写入就无法更新，但整个文件必须作为一个整体被覆盖。如果是这样，那么在HDFS中引入ORC格式的需要是什么，它允许我们修改/更新存储在其底层存储系统为HDFS的hive表中的数据。这使得HDFS成为数据块存储，其中的数据可以更新/修改，这

浏览 23提问于2021-05-18得票数 1

1回答

Spark write.avro创建单独的avro文件

、

我编写了一个火花提交作业，它读取json文档的目录，使用数据帧对它们进行一些处理，然后写入out目录。但是，出于某种原因，当我使用df.save或df.write方法时，它会创建单独的avro、parquet或json文件。事实上，我甚至使用了saveAsTable方法，它对蜂窝仓库中的parquet.gz文件也做了同样的事情。在我看来，这是低效的，并且否定了容

浏览 2提问于2016-06-30得票数 2

回答已采纳

点击加载更多