在Pyspark中处理json数据时出错

文章/答案/技术大牛

发布

1回答

、

我正在从这个链接运行一个简单的Pyspark程序-https://spark.apache.org/docs/2.2.0/sql-programming-guide.html当我试图从全局临时视图读取数据时遇到了问题recent call last): File "/usr/hdp/current/spark2-clie

浏览 54提问于2020-04-28得票数 0

2回答

如果json文件中没有key，如何从Pyspark sql上下文中查询数据，如何捕获并给出sql分析执行

、、

我正在使用Pyspark在Dataframe中转换JSON。我能够成功地改变它。但我面临的问题是，有一个键将出现在一些JSON文件中，而不会出现在另一个文件中。当我使用Pyspark SQL上下文展平JSON时，某些JSON文件中不存在键，它在创建Pyspark数据框时出错，抛出SQL分析异常。参与者id将在某些JSON

浏览 0提问于2020-05-14得票数 1

2回答

将字符串转换为pyspark.sql.types.StructType pyspark

、

我试图在pyspark中创建空的dataframe，在pyspark中，我从外部JSON文件传递scehma，但是Json不允许我指定struct类型，所以我提到它是string。json文件： "OptionalEvents" : { "StructType([StructField('id',StringType(),

浏览 39提问于2021-08-23得票数 1

回答已采纳

1回答

结构化流错误py4j.protocol.Py4JNetworkError: Java端的回答为空

、、、

，我将从两个Kafka流中获取数据，在接下来的几行中，我将尝试使用I进行连接。，在send_command“接收时出错”，e，proto.ERROR_ON_RECEIVE) py4j.protocol.Py4JNetworkError:接收ERROR:py4j.java_gateway:An时出错尝试连接到Java服务器时出错(127.0.0.1:33968)回溯(最近一次调用)：文件"

浏览 136提问于2018-05-04得票数 3

回答已采纳

2回答

读取多个json文件时出错Pyspark

、

我正在尝试将大约300个单独的json文件读取到pyspark中。我可以只读一个，但是一旦我使用了通配符，它就会出错：我已经尝试应用了以下代码：from pyspark import SparkContext, SparkConf sc = SparkConte

浏览 1提问于2019-07-25得票数 0

1回答

如何使延迟加载连接到REST

、、

我很高兴，Spark允许我建立到数据库表的JDBC连接，然后在上面构建转换，直到触发评估为止。我也想用REST连接来做同样的事情。理论上，这将提供一种在逻辑视图中集成DB和API信息的方法。下面是一些要使用的pySpark代码：findspark.init()headers = {"accept"

浏览 0提问于2018-11-29得票数 2

回答已采纳

1回答

使用Pyspark处理具有不同JSON模式行的单个数据集

、、、、

我使用的是PySpark，我需要处理附加到单个数据帧中的日志文件。大多数列看起来都是正常的，但其中一列在{}中有JSON字符串。基本上，每一行都是一个单独的事件，对于JSON字符串，我可以应用单独的Schema。但我不知道在这里处理数据的最好方法是什么。示例： ? 这个表稍后将帮助我以所需的方式聚合事件。它成功地在单个列中工作： from pyspark.sql.types

浏览 15提问于2021-09-01得票数 0

2回答

在jquery中处理json数据时出错

、、、

祝程序员今天过得愉快 var test = this.value; url:"jsoncontent.jsonalert(value.name); }

浏览 7提问于2014-03-14得票数 0

回答已采纳

2回答

如何加载一个20 in的json文件来读入pandas？

、、、

我有一个19.4 GB大小的JSON文件。我尝试了很多方法来读取文件。例如：pandas.read_json(filename)简单地使笔记本崩溃。我正在寻找以惰性方式加载文件的方法。例如，一次1 db，然后将其转储到SQLite或neo4j数据库中以分析数据。任何关于这方面的想法都会非常感谢。

浏览 17提问于2021-01-05得票数 0

2回答

计算时间戳和字符串在pyspark中的月份差异

、

我在databricks中使用pyspark和一个JSON文件来清理数据。eval括号中的表达式来自JSON文件。df2 = df2.withColumn('test', eval("months_between( F.to_date(F.col('period_name')), li

浏览 25提问于2019-11-07得票数 1

回答已采纳

1回答

我正在尝试用spark做一个结构化的流媒体应用程序，主要思想是从kafka源读取，处理输入，写回另一个主题。我已经成功地让spark读写了kafka，但是我的问题出在处理部分。我尝试过foreach函数来捕获每一行并在写回kafka之前对其进行处理，但是它总是只做foreach部分，而不会写回kafka。但是，如果我从writestream中删除foreach部分，它将继续写入，但现在我丢失了处理。如果有人能给我举一个例子，告诉我如何做到这一点，我将非常感激。

浏览 37提问于2019-07-17得票数 0

回答已采纳

2回答

只捕捉到的有效载荷的CDC在火花结构化的流？

、、、、

为了捕捉Server中的数据更改，我尝试执行从Server到Pyspark的管道，我已经准备好了一切：从SQL Server到Kafka进行生产，并使用Pyspark结构化流中的Kafka主题。问题是:当我试图用控制台使用者检查数据更改是否经过Kafka时，它会向我显示JSON格式的消息，分为两个记录: Schema和Payload，以及Payload内部，在此之前和之后，分别给出

浏览 0提问于2021-06-30得票数 0

回答已采纳

1回答

Spark 2.0将json读取到数据帧中，并在关键字中使用引号-与spark 1.6的行为不同……虫子？

、、、

不幸的是，我们不得不处理混乱的传入json数据，并且发现Spark 2.0 (pyspark)处理json键中的引号的方式有所不同。在Spark 1.6.2中，我们可以运行以下命令并获得结果：from pyspark.sql import SQLContext

浏览 0提问于2016-08-11得票数 2

1回答

在PySpark中创建数据帧时处理各种JSON模式

我有Databricks笔记本，每小时读取JSON格式的增量数据。当读取文件时，如何处理PySpark中的模式更改，因为我的最终目标是将JSON扁平化为CSV格式。

浏览 0提问于2021-02-13得票数 1

回答已采纳

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。DB中，JSON文档是有效的，当导入数据时，dataframe中的数据类型是字符串，而不是我所期望的JSON对象/结构。我已经在stackoverflow和其他地方发布了一些帖子，但

浏览 29提问于2019-05-13得票数 4

回答已采纳

3回答

在pyspark中将数据帧保存到本地驱动器上的JSON文件

、、、

我有一个数据帧，我正尝试使用pyspark 1.4将其保存为JSON文件，但它似乎不起作用。当我给它提供目录的路径时，它会返回一个错误，声明它已经存在。我基于的假设是，它将在您提供的路径中保存一个json文件。df.write.json("C:\Users\username") 指定一个带有名称的目录不会产生任何文件，并会给出错误“crc : Mkdirs无法创建测试”，但它会创建一个名称为file:/C:Usersdf.write.<em

浏览 0提问于2015-06-26得票数 6

回答已采纳

1回答

无法从json中读取数据。

、

我是PySpark的新手。有谁能帮我用pyspark来读取json数据吗？print("Error while finding file") df = spark.read.jsongetOrCreate() fileNameInput(file_name,spark) 当我运

浏览 2提问于2018-03-22得票数 7

回答已采纳

2回答

数据帧强制转换未引发溢出异常并生成null

、、

from pyspark.sql.functions import *我试图将数据帧转换为df.column.cast(ShortType())，但当我尝试插入数据99999时，它正在转换为null而不会抛出任何错误，所以您能否建议在转换时抛出错误的任何方法。

浏览 0提问于2021-05-17得票数 0

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

我目前正在处理一些相当复杂的json文件，我应该将它们转换并写入增量表。问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式我怎样才能获得<

浏览 42提问于2021-10-22得票数 0

2回答

使用来自另一个dataframe的JSON对象创建新的数据

、、、、

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data for item in row.json_object[

浏览 4提问于2022-10-19得票数 1

回答已采纳

点击加载更多