腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
Pyspark
中
处理
json
数据
时
出错
、
我正在从这个链接运行一个简单的
Pyspark
程序-https://spark.apache.org/docs/2.2.0/sql-programming-guide.html当我试图从全局临时视图读取
数据
时
遇到了问题recent call last): File "/usr/hdp/current/spark2-clie
浏览 54
提问于2020-04-28
得票数 0
2
回答
如果
json
文件
中
没有key,如何从
Pyspark
sql上下文中查询
数据
,如何捕获并给出sql分析执行
、
、
我正在使用
Pyspark
在
Dataframe中转换
JSON
。我能够成功地改变它。但我面临的问题是,有一个键将出现在一些
JSON
文件
中
,而不会出现在另一个文件
中
。当我使用
Pyspark
SQL上下文展平
JSON
时
,某些
JSON
文件
中
不存在键,它在创建
Pyspark
数据
框
时
出错
,抛出SQL分析异常。参与者id将在某些
JSON
浏览 0
提问于2020-05-14
得票数 1
2
回答
将字符串转换为
pyspark
.sql.types.StructType
pyspark
、
我试图
在
pyspark
中
创建空的dataframe,
在
pyspark
中
,我从外部
JSON
文件传递scehma,但是
Json
不允许我指定struct类型,所以我提到它是string。
json
文件: "OptionalEvents" : { "StructType([StructField('id',StringType(),
浏览 39
提问于2021-08-23
得票数 1
回答已采纳
1
回答
结构化流错误py4j.protocol.Py4JNetworkError: Java端的回答为空
、
、
、
,我将从两个Kafka流
中
获取
数据
,
在
接下来的几行
中
,我将尝试使用I进行连接。,
在
send_command“接收
时
出错
”,e,proto.ERROR_ON_RECEIVE) py4j.protocol.Py4JNetworkError:接收ERROR:py4j.java_gateway:An
时
出错
尝试连接到Java服务器
时
出错
(127.0.0.1:33968)回溯(最近一次调用): 文件"
浏览 136
提问于2018-05-04
得票数 3
回答已采纳
2
回答
读取多个
json
文件
时
出错
Pyspark
、
我正在尝试将大约300个单独的
json
文件读取到
pyspark
中
。我可以只读一个,但是一旦我使用了通配符,它就会
出错
:我已经尝试应用了以下代码:from
pyspark
import SparkContext, SparkConf sc = SparkConte
浏览 1
提问于2019-07-25
得票数 0
1
回答
如何使延迟加载连接到REST
、
、
我很高兴,Spark允许我建立到
数据
库表的JDBC连接,然后在上面构建转换,直到触发评估为止。我也想用REST连接来做同样的事情。理论上,这将提供一种
在
逻辑视图中集成DB和API信息的方法。下面是一些要使用的
pySpark
代码:findspark.init()headers = {"accept"
浏览 0
提问于2018-11-29
得票数 2
回答已采纳
1
回答
使用
Pyspark
处理
具有不同
JSON
模式行的单个
数据
集
、
、
、
、
我使用的是
PySpark
,我需要
处理
附加到单个
数据
帧
中
的日志文件。大多数列看起来都是正常的,但其中一列
在
{}中有
JSON
字符串。基本上,每一行都是一个单独的事件,对于
JSON
字符串,我可以应用单独的Schema。但我不知道在这里
处理
数据
的最好方法是什么。 示例: ? 这个表稍后将帮助我以所需的方式聚合事件。它成功地
在
单个列
中
工作: from
pyspark
.sql.types
浏览 15
提问于2021-09-01
得票数 0
2
回答
在
jquery
中
处理
json
数据
时
出错
、
、
、
祝程序员今天过得愉快 var test = this.value; url:"jsoncontent.
json
alert(value.name); }
浏览 7
提问于2014-03-14
得票数 0
回答已采纳
2
回答
如何加载一个20 in的
json
文件来读入pandas?
、
、
、
我有一个19.4 GB大小的
JSON
文件。我尝试了很多方法来读取文件。例如:pandas.read_
json
(filename)简单地使笔记本崩溃。我正在寻找以惰性方式加载文件的方法。例如,一次1 db,然后将其转储到SQLite或neo4j
数据
库
中
以分析
数据
。任何关于这方面的想法都会非常感谢。
浏览 17
提问于2021-01-05
得票数 0
2
回答
计算时间戳和字符串
在
pyspark
中
的月份差异
、
我
在
databricks中使用
pyspark
和一个
JSON
文件来清理
数据
。eval括号
中
的表达式来自
JSON
文件。df2 = df2.withColumn('test', eval("months_between( F.to_date(F.col('period_name')), li
浏览 25
提问于2019-11-07
得票数 1
回答已采纳
1
回答
Pyspark
结构化流
处理
、
、
我正在尝试用spark做一个结构化的流媒体应用程序,主要思想是从kafka源读取,
处理
输入,写回另一个主题。我已经成功地让spark读写了kafka,但是我的问题出在
处理
部分。我尝试过foreach函数来捕获每一行并在写回kafka之前对其进行
处理
,但是它总是只做foreach部分,而不会写回kafka。但是,如果我从writestream
中
删除foreach部分,它将继续写入,但现在我丢失了
处理
。 如果有人能给我举一个例子,告诉我如何做到这一点,我将非常感激。
浏览 37
提问于2019-07-17
得票数 0
回答已采纳
2
回答
只捕捉到的有效载荷的CDC
在
火花结构化的流?
、
、
、
、
为了捕捉Server
中
的
数据
更改,我尝试执行从Server到
Pyspark
的管道,我已经准备好了一切: 从SQL Server到Kafka进行生产,并使用
Pyspark
结构化流
中
的Kafka主题。问题是:当我试图用控制台使用者检查
数据
更改是否经过Kafka
时
,它会向我显示
JSON
格式的消息,分为两个记录: Schema和Payload,以及Payload内部,在此之前和之后,分别给出
浏览 0
提问于2021-06-30
得票数 0
回答已采纳
1
回答
Spark 2.0将
json
读取到
数据
帧
中
,并在关键字中使用引号-与spark 1.6的行为不同……虫子?
、
、
、
不幸的是,我们不得不
处理
混乱的传入
json
数据
,并且发现Spark 2.0 (
pyspark
)
处理
json
键
中
的引号的方式有所不同。
在
Spark 1.6.2
中
,我们可以运行以下命令并获得结果:from
pyspark
.sql import SQLContext
浏览 0
提问于2016-08-11
得票数 2
1
回答
在
PySpark
中
创建
数据
帧
时
处理
各种
JSON
模式
我有Databricks笔记本,每小时读取
JSON
格式的增量
数据
。当读取文件
时
,如何
处理
PySpark
中
的模式更改,因为我的最终目标是将
JSON
扁平化为CSV格式。
浏览 0
提问于2021-02-13
得票数 1
回答已采纳
1
回答
使用
Pyspark
从数组
中
读取
JSON
项?
、
、
、
我在从databricks
中
的Cosmos DB读取项目
时
遇到了一些问题,它似乎将
JSON
读取为字符串值,并将
数据
从
JSON
中
读取到列
中
。DB
中
,
JSON
文档是有效的,当导入
数据
时
,dataframe
中
的
数据
类型是字符串,而不是我所期望的
JSON
对象/结构。我已经
在
stackoverflow和其他地方发布了一些帖子,但
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
3
回答
在
pyspark
中将
数据
帧保存到本地驱动器上的
JSON
文件
、
、
、
我有一个
数据
帧,我正尝试使用
pyspark
1.4将其保存为
JSON
文件,但它似乎不起作用。当我给它提供目录的路径
时
,它会返回一个错误,声明它已经存在。我基于的假设是,它将在您提供的路径中保存一个
json
文件。df.write.
json
("C:\Users\username") 指定一个带有名称的目录不会产生任何文件,并会给
出错
误“crc : Mkdirs无法创建测试”,但它会创建一个名称为file:/C:Usersdf.write.<em
浏览 0
提问于2015-06-26
得票数 6
回答已采纳
1
回答
无法从
json
中
读取
数据
。
、
我是
PySpark
的新手。有谁能帮我用
pyspark
来读取
json
数据
吗?print("Error while finding file") df = spark.read.
json
getOrCreate() fileNameInput(file_name,spark) 当我运
浏览 2
提问于2018-03-22
得票数 7
回答已采纳
2
回答
数据
帧强制转换未引发溢出异常并生成null
、
、
from
pyspark
.sql.functions import *我试图将
数据
帧转换为df.column.cast(ShortType()),但当我尝试插入
数据
99999
时
,它正在转换为null而不会抛出任何错误,所以您能否建议
在
转换
时
抛
出错
误的任何方法。
浏览 0
提问于2021-05-17
得票数 0
1
回答
Pyspark
:获取嵌套结构列的
数据
类型
、
、
、
我目前正在
处理
一些相当复杂的
json
文件,我应该将它们转换并写入增量表。问题是,当涉及到列的
数据
类型
时
,每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的
数据
类型的一般方法吗?
在
互联网上,我只能找到如何对它们做选择:https://sparkbyexamples.com/
pyspark
/
pyspark
-select-nested-struct-columns/ 如果我有这样的格式我怎样才能获得<
浏览 42
提问于2021-10-22
得票数 0
2
回答
使用来自另一个dataframe的
JSON
对象创建新的
数据
、
、
、
、
我有一个dataframe,它在一个列
中
存储一个
JSON
对象。我希望
处理
JSON
对象来创建一个新的dataframe (列的数目和类型不同,每行将从
JSON
对象生成n个新行)。我在下面编写了这样的逻辑:
在
迭代原始
数据
集
时
,将字典(行)附加到列表
中
。data = [] global data for item in row.
json
_object[
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
点击加载更多
相关
资讯
JMeter中返回Json数据的处理方法
在应用机器学习时如何处理不良数据?
在制作数据可视化大屏出错时,不用再反复寻找原因了
这些问题,你在处理数据时肯定遇到过
在机器学习中处理缺失数据的方法
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券