Spark Scala联合失败，尽管两个数据帧具有相同的模式

、、

在Windows上，Spark 2.3.1我尝试合并两个数据帧。尽管两者都有相同的模式，但我得到了一个错误，说"Union只能在具有兼容列类型的表上执行“，我不明白为什么。因为我已经完成了第二次转换，以便为第二个数据帧获得所需的模式。import breeze.linalg._ import org.ap

浏览 0提问于2018-08-24得票数 1

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据</e

浏览 13提问于2016-09-22得票数 0

1回答

Spark structured streaming -联合两个或多个流媒体源

、、、

我使用的是spark 2.3.2，在对来自Kafka的2个或更多流媒体资源进行联合时遇到了一个问题。这些都是来自Kafka的流媒体源，我已经将它们转换并存储在Dataframes中。理想情况下，我希望将此UNIONed数据帧的结果以parquet格式存储在HDFS中，甚至可能存储回Kafka中。最终目标是以尽可能低的延迟存储这些合并的事件。$$anonfun$runActivatedStream$1$$anonfun

浏览 52提问于2019-07-02得票数 1

回答已采纳

1回答

单元测试中的Spark* Dataframe比较以检查功能*

、、、、

我已经创建了一些方法来将数据帧转换为所需的格式，并根据错误规则过滤多个错误检查和更新数据帧。我是一个在intelliJ上用scala编写单元测试的新手。我必须编写单元测试来将实际数据帧与预期结果进行比较。下面是我为数据帧的pivot功能编写的单元测试用例。类似地，我必须将获得的数据集与预期的数据</

浏览 4提问于2021-09-13得票数 1

1回答

有没有什么方法可以让我在一个pyspark脚本中从10个不同的模式中拉取数据？

、、、

我在SQL server上有一些数据，这些数据存储在10个不同的模式中。尽管表结构在所有模式中都是相同的。有没有什么方法可以让我在一个pyspark脚本中提取所有的数据？另一种方法是为10个模式创建10个数据框，然后联合所有模式，这将需要我访问sql服务器10次。例如，如下所示： df1 = spark.sql("""

浏览 10提问于2020-05-19得票数 0

2回答

Spark从多个列表/数组创建数据帧

、、

因此，我在Spark(scala)中有两个列表。它们都包含相同数量的值。第一个列表a包含所有字符串，第二个列表b包含所有长字符串。String] = List("a", "b", "c", "d") b: List[Long] = List(17625182, 17625182, 1059731078, 100) 我还有一个定义如下的模式StructField("check_nam

浏览 11提问于2021-03-15得票数 0

回答已采纳

1回答

Spark:无法构建大于8G的HashedRelation

、

当我在一个80节点的集群上运行Azure HDInsight 3.6时，我在Spark 2.3中遇到了这个异常： java.lang.UnsupportedOperationException: Canjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) 在执行6个表之间的联合时这个联合在相同大小和<e

浏览 44提问于2020-07-02得票数 0

回答已采纳

1回答

从多个文件读取Spark数据帧

、、

假设您有两个s3存储桶，您想要从中读取spark数据帧。对于在spark数据帧中读取的一个文件，将如下所示： file_1 = ("s3://loc1/") df = spark.read.option("MergeSchema","True").load(file_1) 如果我们有两个文件： file_1 = ("

浏览 9提问于2021-10-18得票数 0

回答已采纳

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用s

浏览 6提问于2018-09-04得票数 1

1回答

如何在Scala中合并三个DataFrame

、、、

如何在Spark-Scala中合并3个DataFrame？我完全不知道如何才能做到这一点。在stackOverFlow上我找不到类似的例子。| 3 |BBBB |NA_M|332|+----+------+----+---+ 我想要这种类型的DataFrame

浏览 1提问于2018-03-15得票数 3

回答已采纳

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的</

浏览 1提问于2021-02-12得票数 0

2回答

Spark联合列顺序

、、、

我最近在Spark遇到了一些奇怪的事情。据我所知，根据spark dfs的基于列的存储方法，列的顺序实际上没有任何意义，它们就像字典中的键。| 1| asd|| 3| f1f||asda| 2|+----+----+ 看起来使用了df1中的模式，但数据</e

浏览 3提问于2019-07-09得票数 26

回答已采纳

1回答

合并具有不同模式的两个地块文件

、、、

我有两个拼图文件，拼花A有137列，拼花B有110列。拼图文件包含表的整个历史记录。因此，拼图A拥有表的整个历史记录的所有字段。拼图B是我今天拉入的所有值，删除了17列。我想把拼花A和拼花B结合起来，但它们没有相同数量的柱子。所以每次都会失败。我尝试过mergeSchema，但失败了。是否可以将缺少的列添加到拼接B并添加空值。那就加入工会吧？

浏览 19提问于2018-09-06得票数 0

1回答

如何在spark中连接两个数据帧并添加字段

、、、

例如，我有两个数据帧， DF1|id | value1|value2|value3|| 2 |200 |300 |400 |+----+-------+------+------+ 我想按id合并这两个数据帧，同时将两个数据帧中具有<

浏览 19提问于2019-03-30得票数 1

3回答

使用Scala和Python联合Spark数据格式时的不同分区号

、、、、

我正在检查2完全相同的 Spark的联合分区的数目，并注意到结果在Scala和Pyhton之间并不相同。结果： df1

浏览 6提问于2020-06-12得票数 1

回答已采纳

3回答

为什么我希望在SchemaRDDs中使用.union而不是.unionAll？

、、、、

我想把这两个函数放在里- 返回这个RDD和另一个RDD的联合。def unionAll(otherPlan: SchemaRDD)：SchemaRDD我这里的代码，借用了，有两个函数返回相同的结果。<em

浏览 0提问于2015-03-12得票数 16

回答已采纳

1回答

如何将两个spark* Dataframe与可以不同的struct类型的字段合并？*

、、、

一个帐户有3个必填字段和两个选项。所以我有一个数据帧，它的字段可以有3种不同的类型。在dataframe中导入文件没什么大不了的，但在扁平化过程中，我可能希望对两个具有不同模式的帐户的dataframe进行联合，当然，我有以下错误：“联合只能在具有兼容列类型的表上执行”。spark怎么才能顺利导入这样的

浏览 0提问于2018-02-12得票数 3

2回答

从Pandas数据帧创建Spark* DataFrame错误*

、、、、

我正在尝试从Pandas Dataframe创建Spark Dataframe，并尝试了许多解决方法，但仍然失败。我曾尝试使用具有2000列和数十万行的pandas数据帧执行上述操作，但我创建了上面的测试df，以确保数据帧不会出现问题。事实上，我得到了完全相同的错误：: java.util.NoSuc

浏览 0提问于2018-03-20得票数 0

3回答

如何使用createDataFrame创建pyspark数据帧？

我知道这可能是一个愚蠢的问题。

浏览 1提问于2018-03-12得票数 2

回答已采纳

1回答

如何在spark* Scala中将模式从另一个文件添加到文件*

、、、

我在Spark中工作，使用Scala 我有两个csv文件，一个具有列名，另一个具有数据，我如何将这两个文件集成在一起，以便我可以生成一个具有模式和数据的结果文件，然后我必须对该文件应用诸如groupby、cout等操作，因为我需要计算这些列中的不同值。所以有没有人能帮上忙呢我写了下面的代码，在读取了这两个文件之后，我从这两个文件中生成了

浏览 17提问于2019-01-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何合并或连接spark中列号不相等的数据帧

Spark structured streaming -联合两个或多个流媒体源

单元测试中的Spark* Dataframe比较以检查功能*

有没有什么方法可以让我在一个pyspark脚本中从10个不同的模式中拉取数据？

Spark从多个列表/数组创建数据帧

Spark:无法构建大于8G的HashedRelation

从多个文件读取Spark数据帧

如何比较SQL语句中两种数据的模式？

如何在Scala中合并三个DataFrame

字符串列包含通过spark* scala进行精确匹配的单词*

Spark联合列顺序

合并具有不同模式的两个地块文件

如何在spark中连接两个数据帧并添加字段

使用Scala和Python联合Spark数据格式时的不同分区号

为什么我希望在SchemaRDDs中使用.union而不是.unionAll？

如何将两个spark* Dataframe与可以不同的struct类型的字段合并？*

从Pandas数据帧创建Spark* DataFrame错误*

如何使用createDataFrame创建pyspark数据帧？

如何在spark* Scala中将模式从另一个文件添加到文件*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐