使用Spark R读取json文件时出错

文章/答案/技术大牛

发布

0回答

、、

我正在尝试使用SparkR学习教程。我会按照要求进行设置。但只要我尝试函数"read.json(path)“，我就会得到以下错误：我的Java被找到了吗?它是正确的版本吗？图像位于R studio中，左侧显示代码，右侧显示控制台结果：

浏览 3提问于2016-12-31得票数 0

1回答

将JSON文件从azure容器读取到数据块作为字典

、、、、

我在Azure容器中有一个prefect JSON文件，因为该文件是使用python字典创建的，我可以在dbutils的帮助下看到该文件，甚至可以按头读取它，但是head不能读取整个文件。使用spark.read.json(file_path)将JSON格式的文件读取为dataframe并抛出错误courrpt损坏。我如何在D

浏览 1提问于2022-05-23得票数 0

回答已采纳

1回答

使用Pyspark将文件从一个目录移动到HDFS中的另一个目录

、、、

我试图从一个目录中读取所有JSON文件，并使用下面的代码将它们存储在中。(效果很好) 但是，当

浏览 1提问于2021-01-18得票数 0

回答已采纳

1回答

当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时，一切正常，但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时，出现以下错误： '‘Py4JJavaError:调用o304.csv时出错。用法: java.io.IOException:方案没有FileSystem : null '‘ Error picture 如果我使用pandas.read_

浏览 26提问于2020-10-28得票数 0

1回答

在scala中读取文件时获取不兼容的jackson版本

、、、

我正在尝试使用下面的代码使用scala读取一个简单的json文件然而，我在读它的时候出错了由: com.fasterxml.jackson.databind.JsonMappingException:不兼容杰克逊版本: 2.11.2引起的 "org.apache.<

浏览 5提问于2022-08-24得票数 0

3回答

如何在Apache Spark中处理变化的拼图模式

、、、、

，但同一列在其他文件中可能具有null值时出现，这些值随后被推断为字符串类型。JSON数据也被划分为日期，即键具有日期前缀。读取JSON工作得很好。无论当前正在读取多少数据，都会从数据中推断出模式。但是当编写拼图文件时，问题就出现了。据我所知，当我使用元数据文件编写parquet时，这些文件包含了parquet文件的所有部分/分区的模式。在我看来，这也

浏览 0提问于2016-12-02得票数 24

回答已采纳

2回答

Pyspark中的JSON文件解析

、、、

我尝试使用以下代码解析JSON文件sqlContext = SQLContext(sc)df.printSchema()| [ 1.34, 0...|

浏览 0提问于2017-01-09得票数 5

回答已采纳

2回答

如何在从json创建dataframe时不推断架构？

、、、

我不希望在从一组jsons创建数据帧时推断出inferSchema = 'false'模式，但我不能像从csv中读取时那样传递。下面是我读取数据的方式： df = spark.read.json(r's3://mypath/')

浏览 5提问于2017-12-12得票数 4

回答已采纳

1回答

使用Spark 2.4与Spark 3读取多个JSON文件

、、

我不得不从Azure数据湖中读取一堆JSON文件。我使用Databricks，当我使用Spark 2.4.5的集群时，我能够读取所有的文件，但当我使用Spark 3.0.1时，返回的数据帧是空的。我正在使用以下命令， dfa = spark.read.json("dbfs:/mnt/abc/

浏览 32提问于2021-05-14得票数 0

1回答

如何将对象从S3桶加载到RStudio中的星火中？

、、、、

为了将对象转换为数据，我使用了get_object("link to bucket path")。但这会导致记忆问题。因此，我在RStudio中安装了Spark2.3.0，并试图将该对象直接加载到Spark中，但是直接将对象加载到Spark中的命令不为人所知。library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") 如果我将对象转换为可读的数据类型(例如数据帧/tbl

浏览 2提问于2018-07-30得票数 0

回答已采纳

1回答

避免解析Spark中的json子字段

、、

我有一个带有复杂模式的json文件(见下文)，我正在使用Spark读取这些文件。我发现一些字段在源数据中是重复的，因此Spark在读取过程中抛出了一个错误(正如预期的那样)。这在Spark中是可能的吗？

浏览 31提问于2021-11-17得票数 0

3回答

如何从Azure Databricks将JSON写入Azure队列

、、

我正在尝试从BLOB读取JSON文件，并将该文件写入Azure队列。读取部分运行良好，但在写入时会抛出错误。file_type="json" "fs.azure.account.key."+storage_account_name+".blob.core.w

浏览 0提问于2019-10-30得票数 2

1回答

火星雨-胶3.0版，更新星火3.0 : 1582-10-15之前的阅读日期或1900年前的时间戳-01-01T00:00:00Z

、、

升级到Glue 3.0后，在处理rdd对象时出现了以下错误调用o926.javaToPython时出错。由于Spark3.0的升级，您可能会得到不同的结果:从Parquet文件读取1582-10-15之前的日期或1900-01-01T00:00:00Z之前的时间戳可能是模棱两可的，因为这些文件可能是由Spark2.x或传统版本的Hive编写的，后者使用的遗留混合日历与Spark3.0+的支持性公历不同。您可以将<

浏览 32提问于2022-05-12得票数 0

1回答