腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
未标识
所有
数据类型
、
当我对
csv
文件
进行分析时,无法区分数据类型,仅
将
每个
字段
作为
字符串
给出
rdd
= sc.textFile(file)
rdd
=
rdd
.filter= header)
spark
_df = <e
浏览 0
提问于2019-05-17
得票数 0
3
回答
如何用模式推理
将
RDD
[String]写到拼图
文件
中
?
、
、
、
我
的
Spark
Streaming作业需要处理
RDD
[String],其中
字符串
对应于
csv
文件
的
一行。我事先不知道模式,所以需要从
RDD
推断模式,然后将其内容写入parquet
文件
。如果我从磁盘
中
读取一个
csv
文件
,我只需使用模式推断
将
所有
内容
加载
到DataFrame
中
,并立即将其写入parquet。不过,在
浏览 5
提问于2017-06-14
得票数 2
1
回答
如何
将
管道分隔
的
字符串
读入dataframe?
、
、
、
我必须将
文件
作为bytes读取到
spark
(databricks)
中
,并将其转换为
字符串
。file_bytes.decode("utf-8")这是一个pandas dataframe,而不是
spark
dataframe,据我所知(这是一个非常松散
的
认识),它存在于何处(在内存
中</e
浏览 0
提问于2018-10-28
得票数 1
1
回答
读取pySpark
中
的
本地
csv
文件
(2.3)
、
、
、
、
我使用
的
是pySpark 2.3,试图读取一个如下所示
的
csv
文件
:1,0.0008506156837329876,0.0008467260987257776pyspark import sql, SparkConf, SparkContext>> <property at 0x7f47583a5548> data_
rdd
=
spa
浏览 2
提问于2018-07-11
得票数 1
回答已采纳
1
回答
将
字段
转换为Ints、Doubles等。在
中
的
Scala
、
、
我有一个任务,需要使用
spark
.read.
csv
()
将
csv
数据集
加载
到星火壳
中
,并完成以下任务: dataset)Convert
将
数据集转换为
RDD
,移除标题( integersConvert
中
的
第一个记录(行),前两个
字段
为
integersConvert其他
字段
,最后一个
字段
为
双倍
字段
除外。我能够用以下
浏览 1
提问于2021-01-27
得票数 0
1
回答
Spark
RDD
将
csv
文件
中
的
所有
字段
加载
为
字符串
、
、
、
、
我有一个
csv
文件
,我
加载
它如下所示: sc.textFile("market.
csv
").take(3) 输出是这样
的
: ['"ID","Area","Postcode","Amount"','
浏览 12
提问于2020-08-23
得票数 0
回答已采纳
2
回答
用火花阅读
CSV
、
、
、
、
我使用以下方法将此
rdd
转换为激发df:但是,在
将
rdd
转换为df时,我需要指定df
的
模式。需要两个
字段
,而提供了一个值。我还尝试使用以下方法读取我
的
csv
文件
:
rdd
=sc.textFile("emails.
csv
").map(lambda line: line.split(",")).map(lambda li
浏览 4
提问于2016-07-28
得票数 1
1
回答
spark
.read。从零件
文件
读取数据时,
将
空
字符串
读取
为
null
、
、
让我们考虑包含以下数据
的
csv
文件
Id、职务、年份 1,,2000
CSV
读卡器代码: var inputDFRdd =
spark
.emptyDataFrame.
rdd
.option("mode", "FAILFAST")
浏览 49
提问于2021-09-16
得票数 0
2
回答
火花中
的
Csv
自定义模式
、
、
我有个
csv
文件
val customSchema = StructType(Array( StructField("flag6", BooleanType, nullable = false)) val df =
spark
.read.schemaoption(&quo
浏览 0
提问于2018-04-09
得票数 1
1
回答
如何在数据帧中指定缺少
的
值
、
、
、
我正在尝试使用Apache Zeppelin笔记本使用
spark
-
csv
1
将
CSV
文件
加载
到
Spark
数据框
中
,当
加载
一个没有值
的
数值
字段
时,该行
的
解析器失败,并且该行被跳过。我原本希望行被
加载
,数据帧
中
的
值
加载
行,并将值设置
为
NULL,这样聚合就会忽略该值。/data.
c
浏览 4
提问于2015-07-21
得票数 6
1
回答
如何为HadoopPartitions计算
Spark
的
默认分区?
、
我正在阅读,关于分区,他说 我对HDFS并不十分熟悉,但是我遇到了一些复制这条语句
的
问题。我有一个名为Reviews.
csv
的
文件
,它是大约330 of
的
亚马逊食品评论文本
文件
。给定默认
的
64‘d块,我希望使用ceiling(330 / 64) = 6分区。但是,当我
将
文件
加载
到我
的
Shell
浏览 1
提问于2018-12-01
得票数 1
回答已采纳
3
回答
使用pyspark处理
csv
文件
中
字段
中
的
逗号
、
、
我有一个在列值
中
包含逗号
的
csv
数据
文件
。例如,AAA_A,BBB,B,CCC_C 这里
的
值是"AAA_A","BBB,B","CCC_C“。在PySpark中用逗号拆分行后如何获得正确
的
值?
浏览 0
提问于2016-02-23
得票数 5
1
回答
为什么
Spark
在读取文本
文件
时
将
RDD
ID增加2而不是1?
、
、
在使用
spark
-shell时,我注意到了一些有趣
的
事情,我很好奇为什么会发生这种情况。我使用基本语法
将
一个文本
文件
加载
到
Spark
中
,然后简单地重复这个命令。REPL
的
产出如下:myreviews: org.apache.
spark
.
rdd
.
RDD
[St
浏览 0
提问于2018-11-29
得票数 0
回答已采纳
2
回答
DataFrame -转义&;
、
、
、
我有一些大型(~150 GB)
csv
文件
,使用分号作为分隔符。我发现有些
字段
包含一个html编码
的
符号和&分号作为列分隔符,所以我需要在
加载
数据帧时用&替换&。例如,我有以下
csv
文件
:1;Chandler;Bing我使用以下笔记本
加载
它: df =
spark
.read.option
浏览 2
提问于2021-08-23
得票数 1
回答已采纳
1
回答
使用Python - class未找到异常
的
星火流
、
我正在进行一个项目,使用
Spark
将
数据从
CSV
文件
大容量
加载
到HBase。我使用
的
代码如下(改编自): conf = {#removed for brevity} keyConv = "org.apache.
spark
.examples.pythonconverters.StringToImmutableBytesWritableConverter=
rdd
.fla
浏览 1
提问于2016-01-20
得票数 1
回答已采纳
2
回答
我不知道怎么用拼花
文件
做同样
的
事
、
import org.apache.
spark
.sql._ val sc =
spark
.sparkContext tempDF.coalesce(1).write.parquet("Parquet"
浏览 4
提问于2019-11-21
得票数 1
回答已采纳
9
回答
把
CSV
带到
Spark
dataframe
、
我在
Spark
上使用python,并希望
将
csv
转换为dataframe。
Spark
的
奇怪地没有提供
CSV
作为源
的
解释。:
spark
-
csv
_2.10:1.0.3",我真的需要增加这个论点,每次我启动火花放电或火花提交?df = sqlContext.load(source="com.databricks.
spark
.
csv
", header="true&q
浏览 6
提问于2015-04-29
得票数 20
回答已采纳
3
回答
将
矢量
字符串
转换为JavaRDD JavaRDD
、
、
我尝试
将
csv
文件
加载
为
矢量
字符串
,然后希望以JavaRDD JavaRDD格式获取数据import org.apache.
spark
.api.java.JavaRDD;import org.apache.
spark
.api.java.func
浏览 2
提问于2016-02-03
得票数 1
3
回答
创建数据架构
的
有效方法是什么?
我是个新手,我发现有两种方法可以创建数据框架
的
模式。我有一个
RDD
: empRDD和数据(除以",")| 1| Mark| 1000| HR|val empData = empFile.map(e => e.split(",")) 创建模式
的
第一种方法是使用
浏览 9
提问于2017-06-22
得票数 0
回答已采纳
1
回答
scala.collection.immutable.List$SerializationProxy
的
java.lang.ClassCastException:无法分配实例
我从Spring java应用程序处理
csv
文件
来触发清理。 获取序列化异常。由: scala.collection.immutable.List$SerializationProxy :无法
将
org.apache.
spark
.
rdd
.
RDD
.org$apache$
spark
$
rdd
$
RDD
$$dependencies_实例分配给java.io.ObjectStr
浏览 0
提问于2019-05-07
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL,DataFrames 以及 Datasets 编程指南
遇见YI算法之初识Pyspark(二)
Spark SQL DataFrame与RDD交互
机器学习实践:如何将Spark与Python结合?
教程:Apache Spark SQL入门及实践指南!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券