Spark RDD将csv文件中的所有字段加载为字符串

、

当我对csv文件进行分析时，无法区分数据类型，仅将每个字段作为字符串给出rdd = sc.textFile(file)rdd = rdd.filter= header)spark_df = <e

浏览 0提问于2019-05-17得票数 0

3回答

如何用模式推理将RDD[String]写到拼图文件中？

、、、

我的Spark Streaming作业需要处理RDD[String]，其中字符串对应于csv文件的一行。我事先不知道模式，所以需要从RDD推断模式，然后将其内容写入parquet文件。如果我从磁盘中读取一个csv文件，我只需使用模式推断将所有内容加载到DataFrame中，并立即将其写入parquet。不过，在

浏览 5提问于2017-06-14得票数 2

1回答

如何将管道分隔的字符串读入dataframe？

、、、

我必须将文件作为bytes读取到spark (databricks)中，并将其转换为字符串。file_bytes.decode("utf-8")这是一个pandas dataframe，而不是spark dataframe，据我所知(这是一个非常松散的认识)，它存在于何处(在内存中</e

浏览 0提问于2018-10-28得票数 1

1回答

读取pySpark中的本地csv文件(2.3)

、、、、

我使用的是pySpark 2.3，试图读取一个如下所示的csv文件：1,0.0008506156837329876,0.0008467260987257776pyspark import sql, SparkConf, SparkContext>> <property at 0x7f47583a5548> data_rdd= spa

浏览 2提问于2018-07-11得票数 1

回答已采纳

1回答

将字段转换为Ints、Doubles等。在中的Scala

、、

我有一个任务，需要使用spark.read.csv()将csv数据集加载到星火壳中，并完成以下任务： dataset)Convert 将数据集转换为RDD，移除标题( integersConvert中的第一个记录(行)，前两个字段为integersConvert其他字段，最后一个字段为双倍字段除外。我能够用以下

浏览 1提问于2021-01-27得票数 0

1回答

、、、、

我有一个csv文件，我加载它如下所示： sc.textFile("market.csv").take(3) 输出是这样的： ['"ID","Area","Postcode","Amount"','

浏览 12提问于2020-08-23得票数 0

回答已采纳

2回答

用火花阅读CSV

、、、、

我使用以下方法将此rdd转换为激发df：但是，在将rdd转换为df时，我需要指定df的模式。需要两个字段，而提供了一个值。我还尝试使用以下方法读取我的csv文件： rdd=sc.textFile("emails.csv").map(lambda line: line.split(",")).map(lambda li

浏览 4提问于2016-07-28得票数 1

1回答

spark.read。从零件文件读取数据时，将空字符串读取为null

、、

让我们考虑包含以下数据的csv文件 Id、职务、年份 1，,2000 CSV读卡器代码： var inputDFRdd = spark.emptyDataFrame.rdd .option("mode", "FAILFAST")

浏览 49提问于2021-09-16得票数 0

2回答

火花中的Csv自定义模式

、、

我有个csv文件 val customSchema = StructType(Array( StructField("flag6", BooleanType, nullable = false)) val df = spark.read.schemaoption(&quo

浏览 0提问于2018-04-09得票数 1

1回答

如何在数据帧中指定缺少的值

、、、

我正在尝试使用Apache Zeppelin笔记本使用spark-csv 1将CSV文件加载到Spark数据框中，当加载一个没有值的数值字段时，该行的解析器失败，并且该行被跳过。我原本希望行被加载，数据帧中的值加载行，并将值设置为NULL，这样聚合就会忽略该值。/data.c

浏览 4提问于2015-07-21得票数 6

1回答

如何为HadoopPartitions计算Spark的默认分区？

、

我正在阅读，关于分区，他说我对HDFS并不十分熟悉，但是我遇到了一些复制这条语句的问题。我有一个名为Reviews.csv的文件，它是大约330 of的亚马逊食品评论文本文件。给定默认的64‘d块，我希望使用ceiling(330 / 64) = 6分区。但是，当我将文件加载到我的Shell

浏览 1提问于2018-12-01得票数 1

回答已采纳

3回答

使用pyspark处理csv文件中字段中的逗号

、、

我有一个在列值中包含逗号的csv数据文件。例如,AAA_A,BBB,B,CCC_C 这里的值是"AAA_A"，"BBB，B"，"CCC_C“。在PySpark中用逗号拆分行后如何获得正确的值？

浏览 0提问于2016-02-23得票数 5

1回答

为什么Spark在读取文本文件时将RDD* ID增加2而不是1？*

、、

在使用spark-shell时，我注意到了一些有趣的事情，我很好奇为什么会发生这种情况。我使用基本语法将一个文本文件加载到Spark中，然后简单地重复这个命令。REPL的产出如下：myreviews: org.apache.spark.rdd.RDD[St

浏览 0提问于2018-11-29得票数 0

回答已采纳

2回答

DataFrame -转义&amp；

、、、

我有一些大型(~150 GB) csv文件，使用分号作为分隔符。我发现有些字段包含一个html编码的符号和&分号作为列分隔符，所以我需要在加载数据帧时用&替换&。例如，我有以下csv文件：1;Chandler;Bing我使用以下笔记本加载它： df = spark.read.option

浏览 2提问于2021-08-23得票数 1

回答已采纳

1回答

使用Python - class未找到异常的星火流

、

我正在进行一个项目，使用Spark将数据从CSV文件大容量加载到HBase。我使用的代码如下(改编自)： conf = {#removed for brevity} keyConv = "org.apache.spark.examples.pythonconverters.StringToImmutableBytesWritableConverter= rdd.fla

浏览 1提问于2016-01-20得票数 1

回答已采纳

2回答

我不知道怎么用拼花文件做同样的事

、

import org.apache.spark.sql._ val sc = spark.sparkContext tempDF.coalesce(1).write.parquet("Parquet"

浏览 4提问于2019-11-21得票数 1

回答已采纳

9回答

把CSV带到Spark* dataframe*

、

我在Spark上使用python，并希望将csv转换为dataframe。 Spark的奇怪地没有提供CSV作为源的解释。:spark-csv_2.10:1.0.3"，我真的需要增加这个论点，每次我启动火花放电或火花提交？df = sqlContext.load(source="com.databricks.spark.csv", header="true&q

浏览 6提问于2015-04-29得票数 20

回答已采纳

3回答

将矢量字符串转换为JavaRDD JavaRDD

、、

我尝试将csv文件加载为矢量字符串，然后希望以JavaRDD JavaRDD格式获取数据import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.func

浏览 2提问于2016-02-03得票数 1

3回答

创建数据架构的有效方法是什么？

我是个新手，我发现有两种方法可以创建数据框架的模式。我有一个RDD: empRDD和数据(除以"，")| 1| Mark| 1000| HR|val empData = empFile.map(e => e.split(",")) 创建模式的第一种方法是使用

浏览 9提问于2017-06-22得票数 0

回答已采纳

1回答

scala.collection.immutable.List$SerializationProxy的java.lang.ClassCastException:无法分配实例

我从Spring java应用程序处理csv文件来触发清理。获取序列化异常。由: scala.collection.immutable.List$SerializationProxy :无法将org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_实例分配给java.io.ObjectStr

浏览 0提问于2019-05-07得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

未标识所有数据类型

如何用模式推理将RDD[String]写到拼图文件中？

如何将管道分隔的字符串读入dataframe？

读取pySpark中的本地csv文件(2.3)

将字段转换为Ints、Doubles等。在中的Scala