使用Spark Scala读取JSON RDD - 腾讯云开发者社区

、、

我是Spark的新手，我想知道除了下面这些选项之外，是否还有其他选项可以使用SparkR从RStudio中读取存储在hdfs中的数据，或者我是否正确使用它们。我知道不应该再使用textFile(sc，path)了，但是除了read.df函数之外，还有其他方法可以读取这类数据吗？<- jsonFile(sqlContext, "hdfs://0.0.0.0:19000/people.json") read.df适用于

浏览 6提问于2015-09-15得票数 5

1回答

在Spark2.0中读取多行json文件时出现"java.lang.IllegalAccessError“

、、

读取Spark2.0中的多行json文件时出现异常 val data = spark.read .json("C:\\user\\Spark(FileInputFormat.java:262)的org.apache.hadoop.mapreduce.lib.input.FileInputFormat类访问org.apache.spark.rdd.R

浏览 48提问于2020-07-19得票数 1

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

、、

我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过程： org.apache.spark.<

浏览 4提问于2017-02-03得票数 0

1回答

Spark RDD - Scala写和Python读

、、、、

我有一个简单的Spark Scala脚本，它读取一堆日志文件并返回一个RDD[Map[String, String]]但是当我们尝试读取pyspark中的json时 spark.read.json("/path/to/export.

浏览 0提问于2017-03-29得票数 0

1回答

Spark SQL读取已转义双引号的JSON文件

、、、

我有一个简单的火花程序，它读取一个JSON文件，并发出一个CSV文件。在JSON文件中，数据使用双引号进行转义。spark程序无法将该行读取为有效的JSON字符串。input.json {\"key\" : \"k1\", \"value1\": \"Good String\", \"value2\": \"Good String\"

浏览 0提问于2017-11-07得票数 1

1回答

使用SPARK从ftp读取文件时出现异常。

、、

在尝试使用Spark从FTP读取数据时出错。(HadoopRDD.scala:101) at org.a

浏览 3提问于2017-05-11得票数 0

回答已采纳

1回答

当接收器失败并将WAL存储在s3中时，火花流无法读取预写日志记录中的数据

、

(RDD.scala:244) at org.apache.spark.rdd.UnionRDD.compute(UnionRDD.scala:87) )在org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277) at org.apache.spark.rdd.RDD.iterator(

浏览 2提问于2015-08-12得票数 1

3回答

Scala将Json文件读取为Json

、

我想在不解析的情况下将Json文件读取为Json。我不想使用数据框，我只想将其作为常规文件读取，并保持格式不变。有什么想法吗？我尝试使用整个文本文件读取，但这会创建一个df。

浏览 2提问于2018-10-16得票数 2

2回答

Spark SQL:不带秒的时间戳解析

、、、

编辑:例如，使用以下命令读取数据将触发以下错误 at org.apache.spark.rdd.RDD.iterator(RDD.scala:283) at or

浏览 3提问于2016-10-24得票数 0

1回答

Bigquery-火花连接器：

、、

当使用spark连接器将数据写入Bigquery时。我正在讨论这个问题。如果从文件中读取数据，则连接器将数据写入bigquery表。但是，只有当从Cassandra表读取数据时，它才会抛出上述错误。我在读取文件和从Cassandra读取后检查类型。两者都指向正确的spark.sql.Dataframe类型。$1.apply$mcV$sp(PairRDDFunctions.scala:1083) at org.apache.spa

浏览 0提问于2019-05-31得票数 0

1回答

在尝试使用AWS Glue中的笔记本创建动态框架时，我遇到错误"java.io.FileNotFoundException:没有这样的文件或目录“

、、、

我正在使用一个由associated创建的表(在数据目录中)来获取与S3存储桶相关联的信息，并且我能够实际获得存储桶中的文件名，但是当我尝试使用动态框架读取文件时，抛出了FileNotFoundException(RDD.scala:323) at org.apache.spark

浏览 0提问于2019-07-10得票数 5

1回答

NullPointerException in SQLContext.read()火花

、、、

我正在尝试使用SQLContext.read()读取由Kafka在Spark中生成的JSON记录。每次NullPointerException出现。rdd.foreach(record -> { }):893) at scala.collection.AbstractIterat

浏览 1提问于2016-08-10得票数 3

1回答

从本地spark访问bluemix对象存储

、、、

Option.scala:120) at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(Option.scala:120) at org.apache.spark.rdd.RDD.partiti

浏览 1提问于2016-04-22得票数 0

2回答

从Linux加载带有spark提交的文件

、、、

在Spark环境中，我很难管理如何从Linux文件系统加载JSON文件。顺便说一下，我用的是Spark1.6。) Caused by: java.io.FileNotFoundException: File file:/home/wymeka/fields.json does(RDD.scala:306) at org.apache.spark.rdd.

浏览 7提问于2016-11-22得票数 0

回答已采纳

1回答

使用zstd压缩编解码器时，Spark* 3.0.1任务失败*

、、

我使用的是Spark3.0.1，用户提供了Hadoop 3.2.0和运行在Kubernetes上的Scala2.12.10。当读取压缩为snappy的拼花文件时，一切正常，但是当我尝试读取压缩为zstd的拼板文件时，有几个任务在以下错误下失败：at org.apache.spark.rdd.RDD.ite

浏览 4提问于2020-11-17得票数 6

1回答

org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainDoubleDictionary GCP UnsupportedOperationException：

、、、、

我试图读取存储在GCP桶上的拼板文件。该文件按日期进行分区，因此，例如bucket-name/year={}/month={}/day={} org.apache.spark.rdd</em

浏览 4提问于2021-06-09得票数 0

1回答

PySpark在使用boto3读取大文件时抛出java.io.EOFException

、、、

我使用boto3从S3读取文件，这表明比sc.textFile(...)快得多。这些文件大约在300 1GB到1GB之间。) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:300) at org.a

浏览 12提问于2015-12-04得票数 2

2回答

Spark/scala大小中的SQL查询超过Integer.MAX_VALUE

、、、

我正在尝试使用Spark在S3事件上创建一个简单的sql查询。我正在加载大约30 as的JSON文件，如下所示：d2.persist(org.apache.spark.storage.StorageLevel.MEMORY_AND_DISK672) at org.apache.spar

浏览 1提问于2017-02-15得票数 26

回答已采纳

3回答

使用火花流读取卡夫卡数据时的lz4异常

、、、

我试图使用星火流api从kafka读取json数据，当我这样做时，它会引发java.lang.NoSuchMethodError：异常。(StateStoreRDD.scala:78)at org.apache.spark.rdd.RDD.iter

浏览 0提问于2018-07-23得票数 3

2回答

当与aws-java-sdk链接时，读取json文件时会触发崩溃。

、、

让config.json成为一个小json文件： "toto": 1我编写了一个简单的代码，用sc.textFile读取json文件(因为该文件可以放在S3、本地或HDFS上，所以textFile(RDDOperationScope.scala:133) at org.apache.spark.rdd.RDDOperationScope$$anonfun$5.apply(RDDOperationScope.scala

浏览 4提问于2015-11-01得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用SparkR 1.5从RStudio中的hdfs读取大文件(纯文本、xml、json、csv)的选项

在Spark2.0中读取多行json文件时出现"java.lang.IllegalAccessError“

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

Spark RDD - Scala写和Python读

Spark SQL读取已转义双引号的JSON文件

使用SPARK从ftp读取文件时出现异常。

当接收器失败并将WAL存储在s3中时，火花流无法读取预写日志记录中的数据

Scala将Json文件读取为Json

Spark SQL:不带秒的时间戳解析

Bigquery-火花连接器：

在尝试使用AWS Glue中的笔记本创建动态框架时，我遇到错误"java.io.FileNotFoundException:没有这样的文件或目录“

NullPointerException in SQLContext.read()火花

从本地spark访问bluemix对象存储

从Linux加载带有spark提交的文件

使用zstd压缩编解码器时，Spark* 3.0.1任务失败*

org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainDoubleDictionary GCP UnsupportedOperationException：

PySpark在使用boto3读取大文件时抛出java.io.EOFException

Spark/scala大小中的SQL查询超过Integer.MAX_VALUE

使用火花流读取卡夫卡数据时的lz4异常

当与aws-java-sdk链接时，读取json文件时会触发崩溃。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐