腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Pyspark
从
数组
中
读取
JSON
项
?
、
、
、
我在从databricks
中
的Cosmos DB
读取
项目时遇到了一些问题,它似乎将
JSON
读取
为字符串值,并将数据
从
JSON
中
读取
到列
中
。Green", "max": 1000000, } ] 在Cosmos DB
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
Pyspark
:行内
数组
的过滤内容
、
、
、
在
Pyspark
中
,可以
使用
以下代码对
数组
进行筛选:但是,我
从
json
文件
中
读取
数据并将其标记化。现在它有以下形式: df=[Row(text=u"i have some text", words=[u'I', u'have', u"some'", u
浏览 4
提问于2017-06-01
得票数 2
回答已采纳
1
回答
(Py) SQL语法
中
的星火getItem()
、
、
数组
类型列的第n
项
可以
使用
getitem(n)检索.地图类型的列可以
使用
getItem(key)或'column.key'分开。
数组
有类似的语法吗?上下文:目标是以可读的方式
从
大规模嵌套的
json
中
获取特定字段。from
pyspark
import SparkContext sc = SparkContext.getOr
浏览 4
提问于2020-10-09
得票数 0
回答已采纳
1
回答
运行spark.read.
json
时在
json
中找到重复列,即使没有重复列
、
、
、
在
PySpark
和Synapse数据流
中
,我遇到了非常奇怪的错误。 "abfss://<Container>]@<DIR>.dfs.core.
浏览 3
提问于2021-11-25
得票数 0
1
回答
如何在
PySpark
中
读取
DBF文件
、
、
、
、
我需要在.DBF
中
读取
和处理
PySpark
文件,但是我没有得到任何库,我怎么能像
读取
CSV、
JSON
、Parquet或其他文件那样
读取
它。from
pyspark
.sql import SparkSe
浏览 9
提问于2022-01-29
得票数 0
2
回答
PySpark
:如何加快sqlContext.read.
json
的速度?
、
、
我正在
使用
下面的
pyspark
代码
从
s3桶
中
读取
数千个
JSON
文件sqlContext = SQLContext(sc)这需要大量时间来
读取
和解析
JSON
文件(~16分钟)。
浏览 1
提问于2018-06-20
得票数 2
1
回答
存储和检索100元素
数组
、
、
、
、
我
使用
Greasemonkey/Tamper猴子访问页面,并根据当前页面上的内容对一个100元素的表进行更改。 短期存储和
数组
操作工作正常,但我想永久地存储数据。似乎没有什么允许我将
数组
写入永久存储,然后将其读入一个变量
中
,在其中我可以访问每个元素,因此variablename[32]实际上是表
中
的第32个元素(如果开始以零计数,则为第33位,我会这样做)。在最基本的情况下,我有一个for循环,
从
0到99,每次打印出variablename[i]的值。,并将其永久存储,因此下次
浏览 6
提问于2015-07-19
得票数 2
2
回答
从
Spark程序连接DynamoDB以
使用
Python从一个表中加载所有项目?
、
、
我已经写了一个程序来写项目到DynamoDB表
中
。现在,我想
使用
PySpark
从
DynamoDB表
中
读取
所有
项
。在Spark中有没有可以做到这一点的库?
浏览 0
提问于2016-02-05
得票数 8
1
回答
如何在
PySpark
中
读取
大型
JSON
文件
、
、
、
、
问题如何在
PySpark
2
中
使用
HDInsight上的开箱即用功能
浏览 1
提问于2018-02-10
得票数 0
回答已采纳
1
回答
使用
pyspark
从
s3
读取
流数据
、
、
、
、
我想利用python的极其简单的文本解析和函数式编程能力,并利用丰富的科学计算库,如numpy和scipy,因此我想
使用
pyspark
来完成一
项
任务。我一开始要执行的任务是从一个存储桶
中
读取
数据,其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段,说明如何
使用
pyspark
从
s3路径
中
读取
流数据吗?直到最近我还以为只能
使用
scala和java才能做到这一点,但我今天才发现Spark1.2以
浏览 1
提问于2015-04-11
得票数 2
1
回答
将字符串数据转换为结构化数据
、
、
我有一个表单的字符串:{'text':'abc'},{'text':'def'},我需要获得表单['abc','def']的
数组
我
使用
以下代码:schema = StructType([StructField('text_str', StringType(), True)]) dsdf.withColumn('text', from_
json
(col('text'
浏览 5
提问于2022-11-23
得票数 0
2
回答
读取
多个
json
文件时出错
Pyspark
、
我正在尝试将大约300个单独的
json
文件
读取
到
pyspark
中
。我可以只读一个,但是一旦我
使用
了通配符,它就会出错:我已经尝试应用了以下代码:from
pyspark
import SparkContext, SparkConf sc = S
浏览 1
提问于2019-07-25
得票数 0
1
回答
从
CSV中将字符串
数组
读取
为
Pyspark
中
的
数组
、
、
我有一个 包含如下数据的文件 ID|Arr_of_Str 2|["PQR", "ABC DEF"] 我想读这篇文章 文件,但是当我
使用
,它将其作为字符串
读取
。|-- Arr_of_Str: array (nullable = true) |-- element: string (containsNull = true) 如何将字符串转换为字符串
数组
浏览 45
提问于2019-12-12
得票数 2
回答已采纳
1
回答
阅读
json
从
“运动”到“火种”时的问题
、
、
我正在尝试
读取
从
PySpark
.My到
JSON
的流
JSON
数据,如下所示:我已经指定了模式,但是当spark
读取
数据时,我会得到from
pyspark
.sql.types import * from
pyspark
.sql.functions import from_
json
浏览 0
提问于2018-09-21
得票数 0
回答已采纳
1
回答
从
Pyspark
Dataframe解析
JSON
字符串
、
、
、
、
我有一个嵌套的
JSON
字典,我需要将其转换为spark dataframe。此
JSON
字典显示在数据框列
中
。我一直在尝试
使用
"from_
json
“和"get_
json
_object”来解析dataframe列
中
存在的字典,但一直无法
读取
数据。我
使用
下面的代码清理数据并将其
读取
到数据帧
中
from
pyspark
.sql.functions import * fr
浏览 36
提问于2021-04-01
得票数 1
回答已采纳
1
回答
如何在DataProc GCP上在木星实验室R核
中
读取
数据并运行线性回归?
、
、
我试着
使用
下面的代码
从
pyspark
上的GCS存储桶
中
读取
数据:
浏览 3
提问于2022-11-10
得票数 1
回答已采纳
1
回答
PySpark
模式应该以DDL格式指定为字符串文字或schema_of_
json
函数的输出,而不是schemaofjson(`col1`);
、
我尝试通过schema_of_
json
函数
从
类似
json
的字符串
中
推断出一个模式,然后
使用
该模式通过from_
json
函数将该字符串值格式化为结构。我的代码是dfTemp = readFromEventHubs() df= dfTemp.withColumn("col1",sqlf.get_
json
_object(col("jsonString&q
浏览 0
提问于2019-12-04
得票数 2
2
回答
在
Pyspark
中
使用
时,具有静态文件依赖关系的python包无法
读取
静态文件
、
、
我正在尝试解决python包
PySpark
的一个问题。我开发了一个python包,它具有以下结构。sample_package/ |-sample.ini |-__init__.pyaddPyFile(path/to/zip/file) 在我的
pyspark
作业
中<
浏览 4
提问于2018-06-25
得票数 0
1
回答
如何在
pyspark
环境会话
中
设置blob conf
、
、
我有一个
pyspark
脚本,在其中我启动了一个spark会话,但是我无法
使用
spark.read.format('
json
').load("my_blob_path")
从
blob商店
读取
。请帮助我在环境
中
设置我的blob凭证。conf = SparkConf().setAppName("session1")from
pyspark
.sql import
浏览 0
提问于2020-02-26
得票数 2
回答已采纳
1
回答
用
PySpark
读取
Cloudera项目中的文件
、
、
、
我的Cloudera项目中有一个文件位于"/home/cdsw/npi.
json
“之下。我尝试
使用
以下命令
从
我的“本地”CDSW项目中
读取
PySpark
,但无法
使用
以下任何命令。npi = sc.read.format("
json
").load("file:///home/cdsw/npi.
json
") npi = sc.
浏览 2
提问于2018-10-30
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券