使用Pyspark从数组中读取JSON项？

文章/答案/技术大牛

发布

1回答

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。Green", "max": 1000000, } ] 在Cosmos DB

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

Pyspark:行内数组的过滤内容

、、、

在Pyspark中，可以使用以下代码对数组进行筛选：但是，我从json文件中读取数据并将其标记化。现在它有以下形式： df=[Row(text=u"i have some text", words=[u'I', u'have', u"some'", u

浏览 4提问于2017-06-01得票数 2

回答已采纳

1回答

(Py) SQL语法中的星火getItem()

、、

数组类型列的第n项可以使用getitem(n)检索.地图类型的列可以使用getItem(key)或'column.key'分开。数组有类似的语法吗？上下文:目标是以可读的方式从大规模嵌套的json中获取特定字段。from pyspark import SparkContext sc = SparkContext.getOr

浏览 4提问于2020-10-09得票数 0

回答已采纳

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。 "abfss://<Container>]@<DIR>.dfs.core.

浏览 3提问于2021-11-25得票数 0

1回答

如何在PySpark中读取DBF文件

、、、、

我需要在.DBF中读取和处理PySpark文件，但是我没有得到任何库，我怎么能像读取CSV、JSON、Parquet或其他文件那样读取它。from pyspark.sql import SparkSe

浏览 9提问于2022-01-29得票数 0

2回答

PySpark:如何加快sqlContext.read.json的速度？

、、

我正在使用下面的pyspark代码从s3桶中读取数千个JSON文件sqlContext = SQLContext(sc)这需要大量时间来读取和解析JSON文件(~16分钟)。

浏览 1提问于2018-06-20得票数 2

1回答

我使用Greasemonkey/Tamper猴子访问页面，并根据当前页面上的内容对一个100元素的表进行更改。短期存储和数组操作工作正常，但我想永久地存储数据。似乎没有什么允许我将数组写入永久存储，然后将其读入一个变量中，在其中我可以访问每个元素，因此variablename[32]实际上是表中的第32个元素(如果开始以零计数，则为第33位，我会这样做)。在最基本的情况下，我有一个for循环，从0到99，每次打印出variablename[i]的值。，并将其永久存储，因此下次

浏览 6提问于2015-07-19得票数 2

2回答

从Spark程序连接DynamoDB以使用Python从一个表中加载所有项目？

、、

我已经写了一个程序来写项目到DynamoDB表中。现在，我想使用PySpark从DynamoDB表中读取所有项。在Spark中有没有可以做到这一点的库？

浏览 0提问于2016-02-05得票数 8

1回答

如何在PySpark中读取大型JSON文件

、、、、

问题如何在PySpark 2中使用HDInsight上的开箱即用功能

浏览 1提问于2018-02-10得票数 0

回答已采纳

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现Spark1.2以

浏览 1提问于2015-04-11得票数 2

1回答

将字符串数据转换为结构化数据

、、

我有一个表单的字符串：{'text':'abc'},{'text':'def'}，我需要获得表单['abc','def']的数组我使用以下代码：schema = StructType([StructField('text_str', StringType(), True)]) dsdf.withColumn('text', from_json(col('text'

浏览 5提问于2022-11-23得票数 0

2回答

、

我尝试通过schema_of_json函数从类似json的字符串中推断出一个模式，然后使用该模式通过from_json函数将该字符串值格式化为结构。我的代码是dfTemp = readFromEventHubs() df= dfTemp.withColumn("col1",sqlf.get_json_object(col("jsonString&q

浏览 0提问于2019-12-04得票数 2

2回答

在Pyspark中使用时，具有静态文件依赖关系的python包无法读取静态文件

、、

我正在尝试解决python包PySpark的一个问题。我开发了一个python包，它具有以下结构。sample_package/ |-sample.ini |-__init__.pyaddPyFile(path/to/zip/file) 在我的pyspark作业中<

浏览 4提问于2018-06-25得票数 0

1回答

如何在pyspark环境会话中设置blob conf

、、

我有一个pyspark脚本，在其中我启动了一个spark会话，但是我无法使用spark.read.format('json').load("my_blob_path")从blob商店读取。请帮助我在环境中设置我的blob凭证。conf = SparkConf().setAppName("session1")from pyspark.sql import

浏览 0提问于2020-02-26得票数 2

回答已采纳

1回答

用PySpark读取Cloudera项目中的文件

、、、

我的Cloudera项目中有一个文件位于"/home/cdsw/npi.json“之下。我尝试使用以下命令从我的“本地”CDSW项目中读取PySpark，但无法使用以下任何命令。npi = sc.read.format("json").load("file:///home/cdsw/npi.json") npi = sc.

浏览 2提问于2018-10-30得票数 0

回答已采纳

点击加载更多