腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
spark
中
读取
csv
文件
时
的
ArrayIndexOutOfBoundsException
、
、
我
在
Spark
的
高级分析
的
第二章,第二版。,所以我检查了所有
文件
的
每一行
的
元素之间是否有相同数量
的
逗号。我使用以下版本:Scala version: 2.11.8我
在
本地机器上启动
spark
shell,如下所示:
spark
-shell --master local[*] --driver-m
浏览 2
提问于2018-01-17
得票数 6
1
回答
在
Scala中注册上一个DF之后创建一个DF
、
、
我是Scala
的
一个新开发人员,我想问你我
的
问题。 然后简单地
读取
这个.
csv
文件
来计算
浏览 0
提问于2019-02-16
得票数 0
1
回答
读取
文本
文件
,但数据帧显示错误。
、
、
我正在尝试从本地
读取
一个文本
文件
到pyspark。使用这将成功地运行并发出一个数据
文件
。df. printSchema()root但是,当尝试访问df
时
,它会给出以下错误。at org.apache.
spark
.sql.execution.datasources
浏览 1
提问于2019-10-21
得票数 0
1
回答
在
虚拟机
的
ubuntu下使用jupyter
中
的
pyspark
时
,pandas功能不起作用
、
、
、
、
='notebook' 然后我就可以
在
jupyter中使用pyspark了。这里是发现
spark
的
第一行: import findsparkimport pyspark 理论上,我现在应该使用pyspark。=SparkSession.builder.getOrCreate() df =
spark
.read.
csv
("/home/feng/Downloads/
spark
-2.4.
浏览 23
提问于2019-02-08
得票数 0
回答已采纳
2
回答
PySpark sqlContext.read.load ArrayIndexOutofBounds误差
、
我
在
S3
中
有一个
CSV
文件
,它有420行和54000列。我正在尝试将
CSV
加载到火花DataFrame
中
: genoExp = sqlContext.read.load("/mnt/%s/RNA-Seq/GSE10846_Gene_Expression_Data.
csv
" %MOUNT_NAME, format='com.databricks.
spark
.
csv
浏览 3
提问于2017-02-09
得票数 0
1
回答
如何将file.deflate.gz
文件
加载到火花数据
中
?
、
我有delflate.gz格式
的
源
文件
压缩。当将数据加载到
Spark
时
,它在ArrayOutofBound异常下失败。val cf =
spark
.read.option("header", "false").option("delimiter", "\u0001").option("codec", "deflate").
csv
("path/xxx.
浏览 4
提问于2017-08-17
得票数 0
1
回答
scala
的
hdfs连接错误
、
、
、
、
我是hadoop
的
新手,刚刚开始尝试使用scala和
spark
连接到hdfs,但不知道配置有什么问题。请帮我解决和理解它。Hadoop Version is 2.7.3
Spark
Version is 2.1.1 <dependency> <artifactId
浏览 6
提问于2017-06-14
得票数 0
2
回答
如何将两个
csv
文件
导入相同
的
数据
文件
(
文件
的
目录不同)
、
、
、
我想从两个
csv
文件
中
创建数据格式,但是
文件
夹路径与另一个
文件
不同。
浏览 2
提问于2018-02-28
得票数 0
回答已采纳
1
回答
用于大型
csv
文件
的
sparklyr
、
、
我正在尝试使用sparklyr加载一个包含一百万行和1000列
的
数据集。我在工作
中
的
一个非常大
的
集群上运行
Spark
。尽管如此,数据
的
规模似乎太大了。我尝试了两种不同
的
方法:1) -将路径放入hdfs -
spark
_read_
csv
(
spark
_context,.
csv
) 2) -将
csv
文件</
浏览 2
提问于2017-05-30
得票数 0
1
回答
可以使用相同
的
代码
读取
csv
或parquet
文件
。
、
、
是否有人知道是否可以使用相同
的
代码将
csv
或拼花
文件
读入火花中。
spark
.read().schema(schema).load(path);file.
csv
is not a Parquet file.expected magic number at tail [80, 6
浏览 5
提问于2020-08-09
得票数 2
回答已采纳
1
回答
如何通过将dataframe作为输入来编写pytest,以获取palantir foundry中所有必需
的
值
、
、
、
我可以通过手动提供列名和值来创建数据框,并将其传递给生产代码以检查palantir foundry代码库中所有转换后
的
字段值,从而编写pytest函数。我不想手动传递列名及其各自
的
值,而是希望将所有必需
的
数据存储
在
dataset
中
,并将该数据集导入pytest函数以获取所有所需
的
值,然后传递给生产代码以检查所有转换后
的
字段值。是否可以接受数据集作为planatir代码库
中
测试函数
的
输入。
浏览 7
提问于2020-11-17
得票数 2
2
回答
如何摄入多个
csv
文件
到一个火花数据?
、
、
、
、
我正在尝试摄取2个
csv
文件
到一个单一
的
火花数据。然而,这两个数据集
的
模式非常不同,当我执行下面的操作
时
,我只返回第二个
csv
的
模式,就好像第一个不存在一样。我怎么才能解决这个问题?我
的
最后一个目标是统计单词
的
总数。paths = "abfss://lmne.dfs.core.windows.net/csvs/MachineLearning_reddit.
csv
&qu
浏览 12
提问于2022-10-27
得票数 0
3
回答
创建数据架构
的
有效方法是什么?
我是个新手,我发现有两种方法可以创建数据框架
的
模式。--+------+-----+ val empData = empFile.map(e => e.split(",")) 创建模式
的
第一种方法是使用但我不知道
在
实际
的
行业项目中推荐哪种方式。有人能告诉我最喜欢
的
方法吗?
浏览 9
提问于2017-06-22
得票数 0
回答已采纳
2
回答
用火花放电
中
的
断线
读取
CSV
、
、
、
读
CSV
中
的
断行符,我想用电火花读一个“合法”(它遵循)
CSV
,它在某些行中有断线(CRLF)。下一个代码示例展示了用Notepad++打开它
时
的
样子:我尝试用sqlCtx.read.load使用format =‘com.databricks.sck.
csv
.
读取
它,结果数据集在这些特定情况下显示两行而不是一行,我使用
的
是
Spark
2.1.0.2版本。是否有任何
读取
csv</e
浏览 2
提问于2017-09-14
得票数 6
回答已采纳
2
回答
正在从
CSV
文件
读取
,但大多数情况下没有值
、
我有一个
csv
文件
,
在
大多数字段中都有数据。我可以
在
Pandas
中
读取
这个
csv
文件
,没有任何问题。但是,当我尝试用Apache
Spark
读取
它
时
,我得到
的
大部分值都是Null值,如截图所示。这个
文件
实际上是400,000+行,这就是我使用Apache
Spark
的
原因,但是当我只使用20行
时
,我也有同样<e
浏览 15
提问于2020-07-15
得票数 0
1
回答
火花:如何递归
读取
目录中所有扩展名不同
的
文件
?
、
、
我
在
HDFS中有这样一个目录结构:├── sub1│ │ └── f1.txt│ └── f2.parquet │ └── f3.jpg └── f4.unknown 是否有一种方法可以跳过一些
文件
(有一些未知
的
扩展名),而使用火花阅读。我可以
读取
目录
中
的
所有
文件
吗?
浏览 0
提问于2021-08-03
得票数 1
回答已采纳
6
回答
如何在一次加载中导入多个
csv
文件
?
、
假设我有一个定义
的
模式,用于
在
文件
夹中加载10个
csv
文件
。是否有一种使用
Spark
自动加载表
的
方法。我知道这可以通过对下面给出
的
每个
文件
使用一个单独
的
数据rather来执行,但是它是否可以通过一个命令来实现自动化,而不是指向一个
文件
,我可以指向一个
文件
夹吗?df = sqlContext.read .format("com.databricks.
s
浏览 11
提问于2016-06-05
得票数 63
回答已采纳
2
回答
Spark
2.0
CSV
错误
、
、
、
我正在从1.6升级到
spark
2,在
读取
CSV
文件
时
遇到问题。
在
spark
1.6
中
,我会在
CSV
文件
中
读取
类似这样
的
内容。val df = sqlContext.read.format("com.databricks.
spark
.
csv
") .option("header", &quo
浏览 73
提问于2017-01-19
得票数 0
1
回答
Spark
-SQL :如何将TSV或
CSV
文件
读入dataframe并应用自定义模式?
、
、
、
我
在
使用制表符分隔值(TSV)和逗号分隔值(
CSV
)
文件
时
使用
Spark
2.0。我希望将数据加载到
Spark
-SQL数据帧
中
,在
读取
文件
时
,我希望完全控制模式。我不希望
Spark
从
文件
中
的
数据
中
猜测模式。 如何将TSV或
CSV
文件
加载到
Spark
SQL Dataframe
浏览 2
提问于2017-04-20
得票数 6
1
回答
在
阅读tar.gz存档
时
使用特定模式过滤
文件
、
、
、
、
假设我们有5份
文件
。abc_2.
csv
def_1.
csv
我希望使用Pyspark数据帧过滤特定
文件
名模式
中
的
读取
文件
。就像我们想一起
读取
所有的abc
文件
一样。 这不应该给我们def
的
结果,反之亦然。目前,我可以通过使用
spark
.read.
csv
浏览 1
提问于2021-02-04
得票数 1
回答已采纳
点击加载更多
相关
资讯
python如何读取CSV文件中的特定行数据
CSV文件在Python中的几种处理方式
在Python程序中读取和写入文件的方法
使用Spark将本地文件读取并封装为DataFrame的完整指南
如何解析字段中包含逗号(,)的csv文件
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券