腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
读取
拼花
时
出现
spark
错误
、
我们正在使用apache
spark
,我们将json文件保存为hdfs中的gzip压缩拼图文件。但是,在回读它们以生成数据帧
时
,某些文件(但不是所有文件)会导致以下异常:org.apache.parquet.io.ParquetDecodingExceptionCaused by: java.lang.ClassCastException: org.apache.
spark
.sql.catalyst.expressi
浏览 0
提问于2018-07-12
得票数 3
回答已采纳
1
回答
Parquet中的列索引
、
是否有人试图在写入parquet
时
创建列索引?Parquet 2.0在中提供了对列索引的支持,但我无法弄清楚如何使用它。基本上,当我从星星之火写到地板
时
,我希望有一个列被索引,这样当我再次阅读它
时
,我可以有更快的查询。但我想不出如何继续下去。
浏览 3
提问于2021-08-31
得票数 1
3
回答
星星之火:在分区
拼花
数据中
读取
DateType列
时
出错
、
、
、
、
我有一个DateType列event_date,由于某种原因,当我尝试使用EMR从S3
读取
并写入hdfs
时
,会抛出这个
错误
。避免选择event_date works :-):选择所有50+列,但event_date不会导致任何
错误
。显式
读取
路径引发
错误
:-(:将
读取
路径更改为's3a://mybucket/mykey/*/*.gz.parquet'仍然引发
错误
。指定架构的仍然会引发<
浏览 6
提问于2016-12-14
得票数 14
回答已采纳
2
回答
流式拼接文件python和仅下采样
、
、
、
我有
拼花
格式的数据,它太大了,无法放入内存(6 GB)。我正在寻找一种方法来
读取
和处理文件使用Python3.6。有没有一种方法可以流式传输文件,下采样,并保存到dataframe?在不使用
spark
框架的情况下尝试这样做是
错误
的吗? 我曾尝试使用pyarrow和fastparquet,但在尝试
读取
整个文件
时
出现
内存
错误
。如有任何建议或建议,我们将不胜感激!
浏览 24
提问于2019-01-02
得票数 5
2
回答
使用火花红移插入红移
、
、
我正在尝试从S3 (
拼花
文件)中插入红移数据。通过SQLWorkbench完成它,600万行需要46秒。但通过连接器的火花红移,它需要大约7分钟。val df =
spark
.read.option("basePath", "s3a://parquet/items").parquet("s3a://parquet/items/Year=2017/Month=7/
浏览 0
提问于2018-02-07
得票数 3
回答已采纳
1
回答
使用结构化流将所有数据一次写入parquet文件
、
我希望将卡夫卡主题的所有聚合数据一次写到一个
拼花
文件中(或者至少在最后有一个
拼花
文件)。Dataset<Row> df =
spark
.readStream()SparkSession
spark
= SparkSession
浏览 1
提问于2019-05-29
得票数 0
4
回答
Apache无法
读取
脚注: java.io.IOException:
、
、
、
、
在我的项目中,我从一个
拼花
文件中加载数据,然后处理这些数据。一切都很好,但问题是我需要在一个学校集群上运行这个项目,但是在代码的这一部分
读取
parquet文件
时
遇到了问题:我得到以下
错误
: 无法
读取
页脚: FileStatus{path=file:/var/tmp&
浏览 0
提问于2016-01-15
得票数 13
2
回答
星星之火:无法从HDFS加载拼板文件,直到将它们“放入”hdfs中。
、
、
、
、
如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上,然后"hdfs将该文件放入“HDFS中,那么
spark
可以正确地
读取
该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到HDFS,则在尝试
读取
parquet文件
时
从
Spark
获得以下
错误
: df = "/usr/hdp/current/
spark
2-如果我再次将该文件放入HDFS (使用curl和webhdfs上传的文件
浏览 0
提问于2018-12-04
得票数 0
1
回答
从
spark
_read_parquet
错误
引发的sparklyr s3
、
当我从sparklyr上下文中
读取
s3上的
拼花
文件
时
,如下所示:它抛给我一个
错误
,就是: 由: java.io.IOException:无法
读取
文件页脚: FileStatus{path=s3a:.我能够在sparkR会话中使用read.parquet()
浏览 0
提问于2019-03-28
得票数 1
1
回答
如何使用pyspark从可变的
拼花
文件列表中复制数据
、
、
、
、
我已经在变量列表中保存了
拼花
文件列表(待读),比如listOffilteredFiles() 现在,我想从这个列表中
读取
所有文件,并将所有数据写入另一条路径中的单个
拼花
文件中。我该怎么做呢。
浏览 4
提问于2022-06-02
得票数 0
1
回答
当从hdfs
读取
时
,如何跳过
拼花
列?
、
、
我们都知道
拼花
是面向列的,所以我们只能得到我们想要的列,减少IO。
spark
.sql("select name from wide_table") 不过,我们必须下载整个
拼花
文件,对吗?
浏览 6
提问于2022-04-19
得票数 0
1
回答
对HDFS有用的
拼花
元数据文件?
、
、
我们使用火花来生成HDFS上的
拼花
文件。 火花生成4个文件,与数据
拼花
,和3个元数据文件.问题是,三个元数据文件占用一个块,这里是128米,当我们运行这样的许多任务
时
,这可能会占用大量的空间。
浏览 4
提问于2017-05-29
得票数 1
回答已采纳
1
回答
如何连接两个
拼花
数据集?
、
、
、
在
Spark
(SQL)中有没有实现这一点的方法?我读到RDDs是可能的,但我并不想将数据写回磁盘。
浏览 0
提问于2017-04-19
得票数 2
回答已采纳
1
回答
如何将excel读入电火花数据
、
、
、
、
我能够
读取
所有的文件和格式,如csv,
拼花
,三角洲从adls2帐户与oauth2信用。但是,当我试图像下面这样
读取
excel文件
时
,.option("header", "trueA1") \我的
错误
越来越少 未能初始化为fs.azure.account.key检测到的
浏览 3
提问于2021-08-02
得票数 0
1
回答
不选择数据的外部表
、
、
、
我有蜂巢外接表,里面有
拼花
数据。这里没有使用压缩。我正在使用
spark
作业将数据(拼图文件)写入HDFS目录。但是,当我尝试从表中选择数据
时
,我会得到以下的
错误
/警告,并且输出也不会
出现
。2.5.0.0-1245火花版本1.6.2 2017年6月1日下午5:04:27警告: org.apache.parquet.CorruptStatistics:忽略统计,因为created_by不能被解析(见
拼花
org.apache.parquet.format.converter.Par
浏览 0
提问于2017-06-01
得票数 1
1
回答
在
Spark
2中获取CastClassException : java.lang.ClassCastException: java.util.ArrayList无法强制转换为org.apache.hadoop.io.Text
、
、
、
、
在处理具有复杂数据类型列的表
时
在
Spark
2中获取CastClassExceptiondf=
spark
.sql("select * from <tablename>")但在运行
spark
应用程序时
出现
以下
错误
Exception in thread "main" org.apache.
spark
.SparkException: Job aborted$$a
浏览 2
提问于2017-12-15
得票数 0
5
回答
如何在火花中将
拼花
文件分割成多个分区?
、
、
因此,我只有一个
拼花
文件,我正在
读取
与
Spark
(使用SQL材料),我希望它被处理100个分区。我尝试将
spark
.default.parallelism设置为100,我们还尝试将拼板的压缩更改为none (从gzip)。现在,根据一些消息来源(如以下所示),
拼花
应该是可分割的(即使使用gzip!),所以我非常困惑,希望得到一些建议。我使用的是
Spark
1.0.0,显然
spark
.sql.shuffle.partitions的默认值是200,所以不可能是那样的。事实上
浏览 5
提问于2014-11-28
得票数 19
回答已采纳
2
回答
无法
读取
Delta格式的Delta / Parquet文件
、
、
、
我试图使用Databricks中的以下代码来
读取
Databricks中的delta / parquet但是,我得到了以下
错误
The pa
浏览 9
提问于2022-08-06
得票数 0
回答已采纳
1
回答
缓存与Tempview
、
、
我有一个
拼花
文件,我在我的申请中至少读了4-5次。我想知道什么是最有效率的事情。选项2.在我的应用程序中,当我第一次需要dataset
时
,在
读取
它之后缓存它。选项3.在编写
拼花
文件
时
,在完成后创建一个临时视图。在所有后续使用中,请使用该视图。 我也不是很清楚的阅读效率从te
浏览 1
提问于2016-11-06
得票数 2
回答已采纳
3
回答
将文件保存到Parquet
时
,分区列被移动到行尾
、
但是,当使用以下方法保存文件
时
:下面是从保存的parquet
读取
数据<e
浏览 4
提问于2018-06-21
得票数 5
回答已采纳
点击加载更多
相关
资讯
Facebook广告账户出现错误提示时,如何应对?
CAD创建图块时出现错误?教你三招轻松解决!
上网时出现http 500 服务器错误该怎么办?
调用 Express API时出现奇怪的CORS错误该怎么办?
Ajax发送PUT/DELETE请求时出现错误的原因及解决方案
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券