在pyspark Python中按特定字段比较连接前的2个字段

在pyspark Python中，可以使用join函数来按特定字段进行连接操作。join函数用于将两个数据集连接起来，连接的字段可以通过指定连接条件实现。

以下是按特定字段比较连接前两个字段的步骤：

导入必要的模块和函数：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建SparkSession：

spark = SparkSession.builder.getOrCreate()

创建要连接的两个数据集，假设分别为df1和df2：

data1 = [("A", 1), ("B", 2), ("C", 3)]
df1 = spark.createDataFrame(data1, ["key", "value"])

data2 = [("A", "x"), ("B", "y"), ("D", "z")]
df2 = spark.createDataFrame(data2, ["key", "data"])

使用join函数进行连接，并指定连接的字段：

joined_df = df1.join(df2, df1["key"] == df2["key"], "inner")

在上述代码中，df1["key"] == df2["key"]用于指定连接的字段，"inner"表示进行内连接操作。

可选：如果需要对结果进行筛选或重新命名列，可以继续使用select函数和其他相关函数进行操作：

result_df = joined_df.select(df1["key"], df1["value"], df2["data"])

这里只选择了df1的"key"和"value"列，以及df2的"data"列。

完整示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

data1 = [("A", 1), ("B", 2), ("C", 3)]
df1 = spark.createDataFrame(data1, ["key", "value"])

data2 = [("A", "x"), ("B", "y"), ("D", "z")]
df2 = spark.createDataFrame(data2, ["key", "data"])

joined_df = df1.join(df2, df1["key"] == df2["key"], "inner")
result_df = joined_df.select(df1["key"], df1["value"], df2["data"])

result_df.show()

输出结果：

+---+-----+----+
|key|value|data|
+---+-----+----+
|  A|    1|   x|
|  B|    2|   y|
+---+-----+----+

在这个示例中，通过比较"key"字段连接了两个数据集，最后输出了连接前两个字段的结果。注意，这里使用的是Spark的DataFrame API进行操作。

推荐的腾讯云相关产品和产品介绍链接地址：

在pyspark Python中按特定字段比较连接前的2个字段

、、

我想加入2 DF，但在此之前，我想按Id比较日期与结束日期和开始日期：输入： data1 = [ ('L1','N020','EY','2004-09-14','2010-12-01'),----+--------+----------+----------+----------+ 我希望仅当df1.start < df2.date < df1.end问题还采用来自df1.id= L2的日期，并将其与df1.id= L1预期输出

浏览 22提问于2021-08-12得票数 1

回答已采纳

1回答

如何在docker容器中安装不同的python版本

、、

我在我的机器中安装了gettyimages/spark docker映像和jupyter/pyspark-notebook。但是，由于gettyimage/spark python版本为3.5.3，而jupyter/pyspark-notebook python版本为3.7，因此出现以下错误：例外情况: worker中的Python版本与驱动程序3.7中<

浏览 1提问于2019-08-16得票数 4

回答已采纳

1回答

PySpark试图将上一个字段的架构应用到下一个字段

、、、

PySpark有这个奇怪的问题。它似乎在尝试将前一个字段的模式应用到下一个字段，因为它正在处理。我可以想出最简单的测试用例：from pyspark.sql.types import ( StructType, File "&#x

浏览 1提问于2019-02-01得票数 1

回答已采纳

1回答

PySpark:在文本和子集数据中搜索子字符串

、、、、

我是pyspark的新手，我想把我现有的pandas / python代码转换成PySpark。我希望对我的dataframe进行子集，以便只返回'original_problem'字段中包含特定关键字的行。下面是我在PySpark中尝试的Python代码： def pilot_discrep(input_file)

浏览 0提问于2018-05-18得票数 3

回答已采纳

1回答

按某些字段分组，将另一些字段连接起来

、、

我在比较两张桌子。一个有新的数据，另一个有几个月前的数据。数据每月都会出现，每次都是所有的数据。没有PK，任何字段都可以更改。对于更改的记录，我需要显示哪些字段及其旧值。可能是一个或更多的字段。如果一个记录有超过一个字段被更改(这是存在的)，那么我将得到结果中重复的字段a，并且有一个不同的FieldChanged和OldValu

浏览 2提问于2014-12-01得票数 1

回答已采纳

2回答

枢轴表找不到前一年一月到十二月之间的差额。Excel 2010

、、、

我几个星期前就做了我的第一张枢轴桌子，我无法相信它们的力量，但却遇到了一个我无法克服的障碍。如您所见，2015年1月为空白，因为差异字段正在查找前一个月，而1月是第一个月。

浏览 4提问于2015-02-11得票数 6

回答已采纳

1回答

MySql -在select语句中选择前一行以比较时间差的最佳方法？

、、

我需要从一个有几百万行的非常大的表中获得一个按日期时间排序的I列表。此select几乎立即给出结果( aprox 300行的结果)。ORDER BY t.Datetime我试着把桌子和它自己连接起来。这些

浏览 0提问于2015-01-05得票数 1

2回答

rails中按字段排序的前3条记录

、

在ruby on rails中，我如何找到我的表的前3条记录，称为notices，按特定字段排序，在我的例子中，我想按position字段排序，它是一个整数。因此，我的通知表如下所示：任何帮助都将不胜感激。

浏览 4提问于2009-09-13得票数 0

回答已采纳

1回答

为什么在基于特定字段java8进行排序之前需要对Hashset进行自然排序？

、、、

我见过使用java8对Hashset按任何特定字段排序的代码。在排序中，他们首先通过实现可比较接口对对象进行自然排序，然后根据特定字段进行排序。查询:为什么要先进行自然排序，然后再对set接口进行具体字段排序欢迎提出任何建议。谢谢

浏览 10提问于2020-09-30得票数 0

1回答

如何删除火花放电中产品价格的零值记录

、

我想按产品价格对产品进行分类。那么，是否有任何方法来删除该特定字段具有Null值的记录。请在下面找到错误日志的快照- 17/05/28 00:48:25错误执行器:阶段1.0 (TID 6)任务2.0中的异常(TID 6) org.apache.spark.api.python.PythonException:回溯(最近一次调用)：文件"/usr/hdp/2.5.0.0-1245/

浏览 3提问于2017-05-28得票数 1

回答已采纳

1回答

如何在星火行对象中排序字段？

、

一旦我们在pyspark中创建了一个行对象，行中的字段将按字母顺序排列：>> print(my_row)如何使字段按我想要的方式排序，例如：Row(rate=0.1, height=1)

浏览 1提问于2018-10-29得票数 1

回答已采纳

2回答

PySpark将数据转换为字典

.| theory| 2| 10|User : <top 1 word>, <top 2 word> ....<top 10 word>+--------------------+--------------------+ 从这里开始，应该更直接地生成字典，

浏览 5提问于2022-05-29得票数 0

1回答

规则比较操作符缺少直接输入法

、

我有一个“设备”内容类型，其中有一个“制造商”字段应用于它。“制造商”字段是对包含所有制造商的分类法的引用。任务A适用于制造商术语1,2和5。当我在规则中设置它时，我使用“数据比较”来检查设备属于哪个制造商。当我只使用一个制造商时，“数据比较”给了我一个要比较的</

浏览 0提问于2013-03-22得票数 0

回答已采纳

1回答

能否将Intellij python解释器设置为虚拟set (类似于py魅力中的)

、、

我需要为python解释器执行一些自定义设置:与pyspark特别相关："interpeter“实际上将是spark-submit (又名pyspark) shell脚本。其目的是能够在中运行 pyspark作业。在Run Configuration中运行也很好:这将是另一种方法。我使用IJ终极版--它有很好的python支持:除了这个特定的用例之外。让我们将其与pych

浏览 3提问于2017-02-26得票数 0

回答已采纳

1回答

在python或pyspark中使用条件模式读取数据文件

、、

我有一个数据文件，我想用python或pyspark处理，但不确定如何定义条件模式。文件布局如下图所示：10000011223,0,1,P,20190817,0,3.00,4.00 检查第四个字段，它可以有值O或P，前三个字段在每条记录中都是通用的。记录类型O和P的其余字段的数字和数据类型各不相同。我需要类似这样的模式

浏览 1提问于2019-09-17得票数 1

1回答

在嵌套字段上加入PySpark* DataFrames*

、、、、

我想在这两个PySpark DataFrames之间执行一个连接：from pyspark.sql.functions importRow(owner=u'owner1',连接必须对对象的名称执行，即df2对象内部<em

浏览 3提问于2016-04-12得票数 6

回答已采纳

1回答

在更新前获取字符串字段的修改

、

我的类中有一个名为'sujet‘的字符串字段，我一直在尝试在字段更新之前获得字段值，通过比较更新前后的字段值，我可以知道字段中添加或删除的单词是什么 Exemple_1:按下保存按钮前的字段SujetExemple_2:按下保存按钮后的字段

浏览 1提问于2015-05-09得票数 0

回答已采纳

1回答

如何在视图控制器代码中获得文本字段输入？

、

“当你输入"Hi“的时候。我使用过IBOutlet，但我不知道如何在代码中使用用户输入。另外，我使用的是Storyboard，而不是SwiftUI。当我尝试比较数据类型UIViewController和String时，它也会给我一个错误。这是我的视图控制器代码(带有默认的App Delegate和Scene Delegate代码)： import UIKit class ViewController: UIViewController

浏览 11提问于2019-12-07得票数 0

回答已采纳

1回答

视图-将字段合并成一个链接？

我正在使用视图模块为我们公司的位置和员工构建一些视图。我所设置的是:当用户查看我们其中一个地点的页面时，他们会得到那里的员工列表。“Employee”内容类型设置为单独的字段，如“姓氏”、“名”、“中间名”等。我想要做的是找到一种方法，将这些字段组合在一行中，在单击时形成到员工配置文件的链接。我发现我可以通过将" title“字段更改为类似于"Display”

浏览 0提问于2013-05-13得票数 1

回答已采纳

2回答

为什么变更事件处理程序不能处理我的代码？

、、

下面的脚本检测到某个文本输入上按下了一个键。这种方法的问题在于，它还可以检测按下shift、control甚至转义等键的时间。我只希望在实际更改文本输入时执行ajax脚本。就像我说的，on('keydown'，function())起作用，但是当我输入字段时，on('change'，function())不会做任何事情。不知道这是怎么回事。

浏览 1提问于2014-06-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pyspark Python中按特定字段比较连接前的2个字段

相关·内容

在pyspark Python中按特定字段比较连接前的2个字段

如何在docker容器中安装不同的python版本

PySpark试图将上一个字段的架构应用到下一个字段

PySpark:在文本和子集数据中搜索子字符串

按某些字段分组，将另一些字段连接起来

枢轴表找不到前一年一月到十二月之间的差额。Excel 2010

MySql -在select语句中选择前一行以比较时间差的最佳方法？

rails中按字段排序的前3条记录

为什么在基于特定字段java8进行排序之前需要对Hashset进行自然排序？

如何删除火花放电中产品价格的零值记录

如何在星火行对象中排序字段？

PySpark将数据转换为字典

规则比较操作符缺少直接输入法

能否将Intellij python解释器设置为虚拟set (类似于py魅力中的)

在python或pyspark中使用条件模式读取数据文件

在嵌套字段上加入PySpark* DataFrames*

在更新前获取字符串字段的修改

如何在视图控制器代码中获得文本字段输入？

视图-将字段合并成一个链接？

为什么变更事件处理程序不能处理我的代码？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐