如何在spark join过程中选择动态列？

文章/答案/技术大牛

发布

1回答

、

我正在尝试连接2个数据帧，在第一个DF中，我需要传递一个动态数量的列，并将其与另一个DF连接。我在这里面临的复杂性是，我有一个带有第一个DF输出的case语句。但不能通过spark实现相同的输出。下面是代码片段，我已经尝试过了，并且工作正常。."+_).reduce(_+","+_) val queryStr = spark.sql(s"select $displayColumns, case when a.Notes is null thenb.Notes else a.Note

浏览 17提问于2019-02-08得票数 0

2回答

在Scala Spark中连接不同数据帧时动态选择多个列

、、、

我有两个spark数据帧df1和df2。有没有一种方法可以在连接这两个数据帧时动态选择输出列？下面的定义在inner join的情况下输出来自df1和df2的所有列。, df2: DataFrame , joinExprs: Column, joinType: String): DataFrame = { val dfJoinResult = df1.joinval df2 = List(("1","7"), ("2"

浏览 5提问于2018-02-01得票数 3

回答已采纳

1回答

在spark sql中选择数组类型

、

我在cassandra DB中有一个表，其中一列包含ip地址列表，如{['10.100.164.33'，'10.100.164.36'，'10.100.164.37'}。现在我想通过spark sql进行查询，比如选择其中一个ip是10.100.164.36的行。如何在spark sql中查询。

浏览 4提问于2017-05-22得票数 0

1回答

火花动态DAG比硬编码DAG慢得多，并且与硬编码DAG不同。

、、

我在spark中有一个操作，应该对数据帧中的几个列执行。通常，有两种可能指定此类操作。DAG是不同的，当使用更多列而不是用于硬编码操作时，动态解决方案的运行时增加得更多。我很好奇如何将动态构造的优雅性与快速执行时间()结合起来。对于大约80列，这将为硬编码变体生成一个相当好的图。对于动态构造的查询来说，这是一个非常大的、可能不那么可并行的、速度更慢的DAG。目前版本的spark (2.0.2)与DataFr

浏览 4提问于2016-12-15得票数 4

回答已采纳

1回答

如何在spark Java API中编写动态连接条件

、

我想使用spark Java API在Dataset上执行左外部连接。如何编写动态条件来匹配join条件中的多个列。我有两个dataset对象。它们都有2列或更多列。我不能定义条件将一列与另一列匹配的示例 dataSet = resultData.as("resultData").join(distinctData.as("distinctData"), resultData.col(&qu

浏览 19提问于2019-04-23得票数 0

回答已采纳

1回答

以拼花格式保存数据文件会生成太多的小文件。

、、、

使用Spark，我将在一个蜂巢表中保存一个parquet格式的星星之火df。问题是，这个操作总是生成大约200个3 MBs的部分-*文件。如何在处理过程中控制输出文件的数量和分区的数量？我用spark.sql(" insert overwrite partition() ... ")保存df .

浏览 1提问于2018-03-15得票数 3

1回答

使用列比例列表进行Spark选择

、

我正在尝试找到一种使用List[ column，我正在分解一个列，而不是用我的分解列传回所有我感兴趣的列]来进行spark select的好方法。

浏览 0提问于2016-10-07得票数 9

回答已采纳

1回答

用INSERT INTO替换SELECT INTO子句

、、

问题是基于搜索标准的列数是动态的。下面的过程中的示例是DISTANCE列。只有当用户选择一个城市时，才会返回。 ,CI.CITYNAME' ' FROM dbo.ITEM AS IT INNE

浏览 1提问于2013-03-20得票数 2

回答已采纳

2回答

只从卡桑德拉拉出星火中所需的列，而不加载所有列

、、、

使用连接器，可以直接将所需列从ES加载到Spark。然而，使用火花-卡桑德拉连接器，似乎不存在这样一个直接向前的选项来进行同样的操作。将ES中的数据读入火花--这里只有必需的列被从ES带到Spark：es_epf_df = spark.read.format("org.elasticsearch.spark</em

浏览 1提问于2020-06-18得票数 0

回答已采纳

1回答

在星火中加入Dataframe表演

、

我正在加入两个数据文件，它们从df.join读取csv文件，并使用s3连接它们。使用默认spark.sql.shuffle.partitions (200)时，需要9分钟才能完成。当我将spark.sql.shuffle.partitions改为10时，它仍然占用几乎相同的时间。

浏览 3提问于2021-04-19得票数 0

1回答

在Spark聚合期间收集唯一元素

、、

问题我需要在代码中更新这一行。我该怎么做？ "case StringType => concat_ws(",",collect_list(col(c)))" 仅追加现有字段中不存在的字符串。在本例中，字母"b“不会出现两次。代码 val df =Seq( (2, 2.0, false, "b") (3, 2.0, false, "c") ).toDF(&#

浏览 15提问于2019-03-18得票数 0

回答已采纳

1回答

如何为结构化查询的不同代码部分指定分区数？

、

我有一个Spark流，类似于： .join(anotherDataFrame, columns) .save() 在join步骤中，我希望spark.sql.adaptive.enabled是true，因为这将加快连接的速度。在repartition步骤中，我希望spark.sql.adaptive.enabled是false，因为如果是真的，它可能会更改分区，保存的结果将被格式化为错误的分区。如何在</e

浏览 0提问于2019-01-28得票数 2

1回答

动态填充中的列名

、、、

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id" unChangedRecords = existingFile.join(incrementalFile,(a==b)

浏览 2提问于2018-02-24得票数 0

回答已采纳

1回答

如何从多个表中动态选择适当的表名以创建联接查询

、、

我想动态地创建join查询，其中包含以下表：表2) groupTable：包含groupId、groupName问题：与案例1一样，有两个表选项: groupRoles或userGroup。那么，我如何知道从这两个选项中动态选择哪个表，以便通过关系表(在我的例子中是userGroup表)将我带到groupTable？但是要获得groupName<

浏览 2提问于2014-03-10得票数 0

1回答

Visual 2013数据集未显示用于动态查询存储过程的列名

、、、、

我使用存储过程中的动态查询作为制表器，同时在visual studio 2013中创建数据集。问题是数据列没有显示用于选择操作的参数和字段。请找到截图：我不确定这个动态语句在这种情况下是否有效。任何人都知道如何在我的报告中使用这个存储过程作为数据源。存储过程中的查询。

浏览 4提问于2015-01-23得票数 0

回答已采纳

2回答

如何提示排序合并联接或随机散列联接(并跳过广播散列联接)？

、、

我对Spark2.1中的join有一个问题。Spark (错误的？)选择广播散列join，尽管该表非常大(1400万行)。然后作业崩溃，因为没有足够的内存，Spark以某种方式尝试将广播片段持久存储到磁盘，这将导致超时。所以，我知道有一个查询提示可以强制广播连接(org.apache.spark.sql.functions.broadcast)，但是有没有办法强制另一个连接算法呢？我通过设置spark.sql.autoBroadcas

浏览 32提问于2018-01-08得票数 7

1回答

如果RDD不能放入Spark的内存中，会发生什么？

、、、

据我所知，Spark试图在内存中完成所有计算，除非你调用persist with disk storage选项。但是，如果我们不使用任何persist，那么当RDD不能放入内存时，Spark会做什么？Spark如何在不崩溃的情况下处理它？

浏览 0提问于2015-09-15得票数 6

2回答

如何使用Spark广播函数

Spark提供了一个函数broadcast来指示数据集足够小并且应该被广播。(100).as("a")val df = a.join(broadcast(b)).where($"a.id" === $"b.id("b") val df = spark.sql("select a.id, c.id from a join broadcast

浏览 1提问于2018-02-27得票数 1

回答已采纳

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

、、

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列。当"X“是浮点数时，它是完全正常的，但是当我将"X”转换为

浏览 31提问于2020-12-20得票数 0

1回答

如何将数据帧与特定路径上的JSON编码的行连接起来？

、、

我希望我可以在相同的操作中做到这一点，而不是在JOIN之后将其转换为RDD，我假设这可以通过Spark SQL很好地完成。这两个对象的内容都是动态的，所以我事先不知道整个结构，但每个对象的顶层路径都是常量{ "element1" "element1value""element1" "element1value" }连接操作 S

浏览 2提问于2020-01-20得票数 1

点击加载更多