Spark scala -从dataframe列解析json并返回包含列的RDD

、、

我有一个看起来像这样的sparkScala RDD： |-- stock.value: string (nullable = true)[ { ""warehouse: ""Type1"" , ""amount""

浏览 2提问于2017-02-06得票数 1

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的<

浏览 4提问于2016-10-10得票数 7

回答已采纳

4回答

在Spark流SQL中解析嵌套JSON字符串列

、、、

我遵循星火流指南，并能够使用sqlContext.read.json(rdd)获取json数据的sql上下文。问题是，json字段之一是我希望解析的JSON字符串本身。是否有一种方法可以在spark中完成这一任务，或者使用ObjectMapper解析字符串并将其连接到其他数据中会更容易吗？为了澄清，JSON的一个值是一个字符串，其中包含带有转义内部引号的<

浏览 12提问于2016-01-04得票数 4

回答已采纳

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如：bartenderemployee...我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[<init>(DataFra

浏览 2提问于2016-02-21得票数 5

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了 df.select(column_names.filter(_!="B"))

浏览 21提问于2015-07-15得票数 22

回答已采纳

2回答

RDD对混合DataFrame API的UDF性能的影响

、、、、

(Scala特有的问题。)RDD和UDF相似，因为它们都不能从催化剂和钨的优化中获益。是否还有其他开销，如果存在，这两种方法之间是否有区别？为了给出一个具体的例子，假设我有一个DataFrame，它包含一

浏览 2提问于2016-08-09得票数 9

1回答

Spark中的DataFrame.select()和DataFrame.toDF()有什么不同？

、、、

似乎他们都返回了一个新的DataFramedef toDF(self, *cols): return DataFrame(jdf, self.sql_ctx) jdf = self._jcols(*cols)) return DataFrame(jdf, self.sql_ctx)

浏览 1提问于2016-12-16得票数 4

回答已采纳

1回答

如何从列表中创建spark数据帧

、

我有一个scala List List[Any] = List("a", "b",...)，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81<em

浏览 2提问于2018-09-26得票数 1

3回答

Spark SQL:如何将来自REST服务的json数据作为DataFrame使用

、、

我需要从提供REST接口的web服务中读取一些JSON数据，以便从我的SPARK SQL代码中查询数据进行分析。我能够读取存储在blob存储中的JSON并使用它。我想知道从REST服务读取数据并像使用任何其他DataFrame一样使用它的最佳方式是什么。顺便说一句，如果有帮助的话，我正在使用SPARK 1.6 of Linux cluster on HD insi

浏览 4提问于2016-05-09得票数 12

回答已采纳

1回答

读取json列和直接数据值列

下面的语句满足了我的需要，但它只能在spark-shell中运行，而不能在scala程序中运行。spark.read.json(dataframe.select("col_name").as[String]).schema输出。

浏览 14提问于2020-03-12得票数 0

2回答

保持字符串列(Array[String，Int])中的特定字符，并按组应用算法

、、、

我有一个csv文件，其中包含像Z1:A，Z2:B等用逗号分隔的值。我想: 1.创建键值，其中包含每个键的频率数(这部分已经完成了)。2.重写我的数组(或者元组？)通过保持Zx (其中x可以是任意整数)并丢弃冒号和所有跟随(:A )的内容。然后，我执行map-还原，以获得我想要的结果

浏览 11提问于2017-04-11得票数 0

回答已采纳

2回答

Apache Spark聚合JSONL DataFrames通过保留空值进行分组

、、、

我是Spark的新手，所以我可能需要你的一些帮助。df = spark.read.json('s3://bucket/prefix') 我使用进行了一些转换，并获得了更新的数据帧，其中一些字段已添加到其中 df2 = df.rdd.map(lambdadf.foreach()和boto3来做这件事)，因此我通过传递除grouping列之外的列名来累积聚合数据 def

浏览 73提问于2021-01-22得票数 0

2回答

Scala :从csv读取具有空值的列的数据

、、

我已经将csv文件转换为数据帧，并想要显示它。$anonfun$mapPartitionsInternal$2(RDD.scala:872)at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349

浏览 1提问于2021-03-25得票数 0

2回答

为什么使用org.apache.spark.shuffle.FetchFailedException?收集数据集失败

、、、、

我从Cassandra表中创建了一个数据集，该表包含大约700行数据，其中5列包含5列，其中一列具有JSON格式的数据。数据量仅以MB为单位。(ShuffleBlockFetcherIterator.scala:323) .局部/172.17.0.1:53093 我直接在火花壳(逐行)中运行以下代码i

浏览 7提问于2017-05-31得票数 3

2回答

将拼花文件从S3加载到DynamoDB

、、、、

我一直在寻找从S3到DynamoDB加载Parquet文件的选项(基本上是空的和还原的)。拼花文件本身是通过运行在EMR集群上的火花作业创建的。这里有几件事要记住，文件将包含数百万行(比如1000万行)，因此需要一个有效的解决方案。我相信boto (即使是批处理写入)可能没有那么有效？

浏览 0提问于2019-04-23得票数 1

1回答

包含SparseVector的Spark.ml DataFrame

、

我有一个包含许多列的spark.ml DataFrame，每列中的每一行都包含一个SparseVector。除了我似乎不能从该DataFrame中select一列并将其转换为RDD[Vector]。这是我的尝试：val col = df.as[(org.apache.spa

浏览 0提问于2017-02-16得票数 0

1回答

IF语句可以正确构建spark* dataframe吗？*

、、

这是否如我所期望的那样工作？df = sqlContext.read.option("badRecordsPath", badRecordsPath).json([data_path_1, s3_prefix + "batch_01/2/2019-04-28/15723921/15723921_15.json"]) df = df.withColumn

浏览 12提问于2019-05-05得票数 0

回答已采纳

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希

浏览 2提问于2017-02-26得票数 2

1回答

scala:用成千上万的列逐行更新巨大的数据格式

、、、

在几百列的情况下，使用UDF的逐列方法失败(1500列不能这样做)。此外，看来大部分时间都是由星火公司使用大约100%-200%的CPU (与其他使用数十个核心的操作不同)。这让我相信，星火dataframe的低缓存命中率，可能是由于内存崩溃。然后，我试图解决使用逐行方法的问题，因为Spark在分区中保持行的完整性。最直接的解决方法可能是使用case class

浏览 5提问于2022-07-25得票数 0

回答已采纳

3回答

将JSON字符串列拆分为多列

、、、

我正在寻找一个通用解决方案，将所有json字段从JSON字符串列中提取为列。df.show()| 3 | "pqr" | ["dep02"] | null| "SF" | "CA" 我知道，我可以通过创建一个有模式定义的St

浏览 0提问于2019-09-03得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将StringType列添加到现有的DataFrame中，然后应用默认值

在Spark流SQL中解析嵌套JSON字符串列

数据过滤给NullPointerException

如何在spark的数据中“负选择”列

RDD对混合DataFrame API的UDF性能的影响

Spark中的DataFrame.select()和DataFrame.toDF()有什么不同？

如何从列表中创建spark数据帧

Spark SQL:如何将来自REST服务的json数据作为DataFrame使用

读取json列和直接数据值列

保持字符串列(Array[String，Int])中的特定字符，并按组应用算法

Apache Spark聚合JSONL DataFrames通过保留空值进行分组

Scala :从csv读取具有空值的列的数据

为什么使用org.apache.spark.shuffle.FetchFailedException?收集数据集失败

将拼花文件从S3加载到DynamoDB

包含SparseVector的Spark.ml DataFrame

IF语句可以正确构建spark* dataframe吗？*

将RDD转换为Dataframe Spark

scala:用成千上万的列逐行更新巨大的数据格式

将JSON字符串列拆分为多列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐