读取拼花时出现spark错误

文章/答案/技术大牛

发布

0回答

、

我们正在使用apache spark，我们将json文件保存为hdfs中的gzip压缩拼图文件。但是，在回读它们以生成数据帧时，某些文件(但不是所有文件)会导致以下异常：org.apache.parquet.io.ParquetDecodingExceptionCaused by: java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressi

浏览 0提问于2018-07-12得票数 3

回答已采纳

1回答

Parquet中的列索引

、

是否有人试图在写入parquet时创建列索引？Parquet 2.0在中提供了对列索引的支持，但我无法弄清楚如何使用它。基本上，当我从星星之火写到地板时，我希望有一个列被索引，这样当我再次阅读它时，我可以有更快的查询。但我想不出如何继续下去。

浏览 3提问于2021-08-31得票数 1

3回答

星星之火:在分区拼花数据中读取DateType列时出错

、、、、

我有一个DateType列event_date，由于某种原因，当我尝试使用EMR从S3读取并写入hdfs时，会抛出这个错误。避免选择event_date works :-)：选择所有50+列，但event_date不会导致任何错误。显式读取路径引发错误:-(：将读取路径更改为's3a://mybucket/mykey/*/*.gz.parquet'仍然引发错误。指定架构的仍然会引发<

浏览 6提问于2016-12-14得票数 14

回答已采纳

2回答

流式拼接文件python和仅下采样

、、、

我有拼花格式的数据，它太大了，无法放入内存(6 GB)。我正在寻找一种方法来读取和处理文件使用Python3.6。有没有一种方法可以流式传输文件，下采样，并保存到dataframe？在不使用spark框架的情况下尝试这样做是错误的吗？我曾尝试使用pyarrow和fastparquet，但在尝试读取整个文件时出现内存错误。如有任何建议或建议，我们将不胜感激！

浏览 24提问于2019-01-02得票数 5

2回答

使用火花红移插入红移

、、

我正在尝试从S3 (拼花文件)中插入红移数据。通过SQLWorkbench完成它，600万行需要46秒。但通过连接器的火花红移，它需要大约7分钟。val df = spark.read.option("basePath", "s3a://parquet/items").parquet("s3a://parquet/items/Year=2017/Month=7/

浏览 0提问于2018-02-07得票数 3

回答已采纳

1回答

使用结构化流将所有数据一次写入parquet文件

、

我希望将卡夫卡主题的所有聚合数据一次写到一个拼花文件中(或者至少在最后有一个拼花文件)。Dataset<Row> df = spark.readStream()SparkSession spark = SparkSession

浏览 1提问于2019-05-29得票数 0

4回答

Apache无法读取脚注: java.io.IOException：

、、、、

在我的项目中，我从一个拼花文件中加载数据，然后处理这些数据。一切都很好，但问题是我需要在一个学校集群上运行这个项目，但是在代码的这一部分读取parquet文件时遇到了问题：我得到以下错误：无法读取页脚: FileStatus{path=file:/var/tmp&

浏览 0提问于2016-01-15得票数 13

2回答

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

、、、、

如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后"hdfs将该文件放入“HDFS中，那么spark可以正确地读取该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到HDFS，则在尝试读取parquet文件时从Spark获得以下错误： df = "/usr/hdp/current/spark2-如果我再次将该文件放入HDFS (使用curl和webhdfs上传的文件

浏览 0提问于2018-12-04得票数 0

1回答

从spark_read_parquet错误引发的sparklyr s3

、

当我从sparklyr上下文中读取s3上的拼花文件时，如下所示：它抛给我一个错误，就是：由: java.io.IOException:无法读取文件页脚: FileStatus{path=s3a：.我能够在sparkR会话中使用read.parquet()

浏览 0提问于2019-03-28得票数 1

1回答

如何使用pyspark从可变的拼花文件列表中复制数据

、、、、

我已经在变量列表中保存了拼花文件列表(待读)，比如listOffilteredFiles() 现在，我想从这个列表中读取所有文件，并将所有数据写入另一条路径中的单个拼花文件中。我该怎么做呢。

浏览 4提问于2022-06-02得票数 0

1回答

当从hdfs读取时，如何跳过拼花列？

、、

我们都知道拼花是面向列的，所以我们只能得到我们想要的列，减少IO。 spark.sql("select name from wide_table") 不过，我们必须下载整个拼花文件，对吗？

浏览 6提问于2022-04-19得票数 0

1回答

对HDFS有用的拼花元数据文件？

、、

我们使用火花来生成HDFS上的拼花文件。火花生成4个文件，与数据拼花，和3个元数据文件.问题是，三个元数据文件占用一个块，这里是128米，当我们运行这样的许多任务时，这可能会占用大量的空间。

浏览 4提问于2017-05-29得票数 1

回答已采纳

1回答

如何连接两个拼花数据集？

、、、

在Spark (SQL)中有没有实现这一点的方法？我读到RDDs是可能的，但我并不想将数据写回磁盘。

浏览 0提问于2017-04-19得票数 2

回答已采纳

1回答

如何将excel读入电火花数据

、、、、

我能够读取所有的文件和格式，如csv，拼花，三角洲从adls2帐户与oauth2信用。但是，当我试图像下面这样读取excel文件时，.option("header", "trueA1") \我的错误越来越少未能初始化为fs.azure.account.key检测到的

浏览 3提问于2021-08-02得票数 0

1回答

不选择数据的外部表

、、、

我有蜂巢外接表，里面有拼花数据。这里没有使用压缩。我正在使用spark作业将数据(拼图文件)写入HDFS目录。但是，当我尝试从表中选择数据时，我会得到以下的错误/警告，并且输出也不会出现。2.5.0.0-1245火花版本1.6.2 2017年6月1日下午5:04:27警告: org.apache.parquet.CorruptStatistics:忽略统计，因为created_by不能被解析(见拼花org.apache.parquet.format.converter.Par

浏览 0提问于2017-06-01得票数 1

1回答

在Spark 2中获取CastClassException : java.lang.ClassCastException: java.util.ArrayList无法强制转换为org.apache.hadoop.io.Text

、、、、

在处理具有复杂数据类型列的表时在Spark2中获取CastClassExceptiondf=spark.sql("select * from <tablename>")但在运行spark应用程序时出现以下错误 Exception in thread "main" org.apache.spark.SparkException: Job aborted$$a

浏览 2提问于2017-12-15得票数 0

5回答

如何在火花中将拼花文件分割成多个分区？

、、

因此，我只有一个拼花文件，我正在读取与Spark (使用SQL材料)，我希望它被处理100个分区。我尝试将spark.default.parallelism设置为100，我们还尝试将拼板的压缩更改为none (从gzip)。现在，根据一些消息来源(如以下所示)，拼花应该是可分割的(即使使用gzip!)，所以我非常困惑，希望得到一些建议。我使用的是Spark1.0.0，显然spark.sql.shuffle.partitions的默认值是200，所以不可能是那样的。事实上

浏览 5提问于2014-11-28得票数 19

回答已采纳

2回答