如何在scala spark中将两个json结果合并为一个数据帧

文章/答案/技术大牛

发布

1回答

、

我有一段读取json文件位置数组的代码，并使用spark read json函数读取它。+ 代码： val dataPath = dataArr(counter)("data").arr dataLocation.foreach(i => { val rdd = spark.sparkContext.wholeT

浏览 78提问于2020-09-03得票数 0

回答已采纳

1回答

从Python的Scala eqv的多列创建一个

、

我在Python中使用下面的代码来转换来自多个列的键值(Dataframe，其中有2列InternalId和ExternalId，从spark返回)，并在Python中将其合并为单列"body“。jsonDf = interalexternalid.select(to_json(struct([interalexternalid[x] for x in interalexternalid.columns])).alias("body"))结果

浏览 3提问于2020-04-28得票数 0

回答已采纳

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.li

浏览 2提问于2017-02-26得票数 2

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配

浏览 1提问于2021-02-12得票数 0

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。给定：df1

浏览 4提问于2016-02-28得票数 3

1回答

如何在Scala中向Cassandra插入数据帧

、

我有一个如下所示的数据框架，并希望将此数据插入到cassandra表中| name | id | city | .options(Map("table" -> "tablename", "keyspace"-> "keyspac

浏览 0提问于2017-11-02得票数 0

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。编辑：我只是在检查为什么显示create没有使用spark，是因为它是一个临时表吗？scala> val df1=spark.sql("SHOW SCHEM

浏览 6提问于2018-09-04得票数 1

2回答

如何在dsx中使用Scala2.11 with Spark 2.0笔记本的"display“功能

、、

在dsx中，有一种方法可以在Scala2.11和Spark 2.0笔记本中使用"display“(我知道可以在python笔记本中使用pixiedust)。例如： WHEREstate = 'CA' GROUP BY city ORDER BY SUM(pop) DESC")) 但我想在scala<

浏览 3提问于2017-01-28得票数 3

1回答

在Apache Spark* Scala中将嵌套的json with array展平为单行数据帧*

、

我正在尝试将下面的json扁平化成一个单行的数据帧。我已经看过很多文章，展示了如何使用数组将复杂的/嵌套的json对象展平为多行。但是，我不想将json展平为多行。我只想要一个如输出所示的单行数据帧。数组索引将转换为列名。我如何在Apache Spark Scala中实现这一点？JSON { "name":&quo

浏览 39提问于2021-08-26得票数 1

0回答

Scala:用单引号替换双引号

、、、、

如何在Scala中将单引号替换为双引号？我有一个数据文件，其中包含一些带有"abc“(双引号)的记录。我需要将这些引号替换为单引号，并将其转换为数据帧。true), .format("com.databricks.spark.csv

浏览 7提问于2017-01-04得票数 1

1回答

在scala* for循环中附加数据loop后，Dataframe变为空*

、

实际上，我试图在scala中的for循环中将一个dataframe附加到一个空的dataframe中。但是附加的数据文件每次都变成空的。(sc.emptyRDD[Row],struct_dymic) { val url_json_df = spark.read.optio

浏览 4提问于2020-09-28得票数 0

回答已采纳

2回答

当编码时Row模式未知时，如何将string与Row合并以创建新的spark* dataframe？*

、、、、

我已经创建了一个函数，它接受一行作为输入，并给出一个字符串作为输出。我计划将此函数应用于不同模式的各种数据帧。这些数据帧非常庞大，每个数据帧有数百万行，但每个数据帧都有一个定义好的模式我想创建另一个函数，它将调用第一个函数，将函数的输出字符串与它发送到函数的行合并，并创建一个新的数据帧，该数据</em

浏览 46提问于2019-10-15得票数 0

回答已采纳

1回答

单元测试中的Spark* Dataframe比较以检查功能*

、、、、

我已经创建了一些方法来将数据帧转换为所需的格式，并根据错误规则过滤多个错误检查和更新数据帧。我是一个在intelliJ上用scala编写单元测试的新手。我必须编写单元测试来将实际数据帧与预期结果进行比较。下面是我为数据帧的pivot功能编写的单元测试用例。类似地，我必须将获得的数据集与预期的数据帧进行比较。parserObj.pivoting

浏览 4提问于2021-09-13得票数 1

1回答

如何将每个输入流中的数据集组合为一个

、、

如何在应用转换之前将每个火花输入流中的数据集组合为一个。为此，我希望在执行转换之前将所有DStream合并为一个。 import org.apa

浏览 2提问于2016-08-08得票数 0

1回答

读取json列和直接数据值列

下面的语句满足了我的需要，但它只能在spark-shell中运行，而不能在scala程序中运行。spark.read.json(dataframe.select("col_name").as[String]).schema输出。我有一个解决方案，可以在spark-shell下运行，但不能在s

浏览 14提问于2020-03-12得票数 0

1回答

退出状态：-100。诊断:容器在丢失节点上释放

、、、

我有两个输入文件(一个在JSON中，另一个在parquet中)，我试图在这两个大数据帧上做一个连接，并将连接的数据帧写入s3(作为JSON)。该作业将永远停滞不前(将联接的JSON写入s3)。中间持久化-持久化( memory_disk和disk_only类型)连接的df持久化两个输入(在连接之前)，在两个df上执行一些操作，然后连接并写入s3

浏览 0提问于2019-02-12得票数 1

2回答

如何将基于TypeSafe激活器的应用程序部署到Apache集群？

、、

我的应用程序使用Apache作为后台数据处理，并为前端接口使用Play Framework。顺便说一下，这个应用程序是用<e

浏览 0提问于2015-03-17得票数 1

回答已采纳

1回答

执行连接时返回空数据集

、、、

我正在从csv文件中读取2个数据帧。然而，当我加入这两个dataFrames时，由于它们之间的连接，我得到了一个空的数据集。因为我是Scala和Spark的新手，所以我需要帮助来解决这个简单的问题。提前谢谢。

浏览 1提问于2017-10-12得票数 0

3回答

阻止DataFrame.partitionBy()从架构中删除已分区的列

、

我按如下方式对DataFrame进行分区：代码给出了预期的结果(即按类型和类别划分的数据但是，"type“和"category”列将从数据/模式中删除。有没有办法防止这种行为？

浏览 3提问于2016-03-23得票数 20

回答已采纳

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala* api？*

、、、

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我

浏览 28提问于2020-04-22得票数 0

点击加载更多