前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pandas知识点-合并操作merge

Pandas知识点-合并操作merge

作者头像
Python碎片公众号
发布2021-06-24 15:48:14
4K0
发布2021-06-24 15:48:14
举报
文章被收录于专栏:Python碎片公众号的专栏

merge()方法是Pandas中的合并操作,在数据处理过程中很常用,本文介绍merge()方法的具体用法。

一基础合并操作


merge(left, right): 将两个DataFrame或Series合并到一起。left和right参数是必传参数,分别传入一个DataFrame或Series对象,合并的顺序与传入的顺序一致。从参数名left和right可以看出,merge()方法主要用于按列合并(横向合并)。

原理如下:

merge()方法也可以实现按行合并(纵向)的效果,需要两个DataFrame的列名完全一样,且要指定合并方式为outer。

如果两个DataFrame的列名完全相同,使用outer合并方式,效果是将两个DataFrame按行合并到一起。merge()默认的合并方式是inner(取交集),列名完全相同时取交集合并的结果是空DataFrame。

原理如下:

其实,此时合并的原理也是按列合并,特殊的是两个DataFrame中列名完全一样,且没有指定on参数。merge()方法自动将所有列同时作为连接列,合并时取并集,所有的连接列在结果中都返回了,得到的效果就与按行合并一样。(理解how参数和on参数后就会明白,下文马上介绍)。

二连接方式


how: 指定合并时使用的连接方式,连接方式有四种,默认为inner。

inner

内连

取key列的交集

outer

外连

取key列的并集

left

左连

使用左边df的key列

right

右连

使用右边df的key列

三指定连接的列


on: 指定合并时用于连接(外连,内连,左连,右连)的列。默认为None,merge()方法自动识别两个DataFrame中名字相同的列,作为连接的列,如本文前面的例子中没有指定on参数,也自动识别了相同的列作为连接列。

合并时,先找到两个DataFrame中的连接列key,然后将第一个DataFrame中key列的每个值依次与第二个DataFrame中的key列进行匹配,匹配到一次结果中就会有一行数据。上面的left和right中key列都是k0~k2,k0~k2分别匹配到一次,共匹配三次,所以结果有三行。假如将k0~k2都改成k,则left中的每一个k可以与right中的k匹配到三次(many_to_many,后面会介绍),共匹配9次,结果会有9行。

on参数指定的列必须在两个被合并DataFrame中都有,否则会报错。

on参数也可以指定多列,合并时按多个列进行连接。

在合并时,只有多个列的值同时相等,两个DataFrame才会匹配上。上面的例子中,用于连接的列是key1,key2,k0,k0在两个DataFrame中都有,匹配到一次,k1,k1匹配到两次,k2,k2和k2,k3等都没有匹配成功,所以结果为三行(默认合并方式为inner)。

原理如下:

四两个DataFrame分别指定连接列


使用on参数时,指定的列必须在两个DataFrame中都有。merge()方法也支持两个DataFrame分别指定连接的列,此时不要求指定列在两个DataFrame中都有。

left_on: 指定第一个DataFrame中用于连接的列,默认为None。

right_on: 指定第二个DataFrame中用于连接的列,默认为None。

当left_on和right_on都指定一样的列时,与用on参数的结果一样。如果left_on和right_on指定不同的列,可能因为连接列的值匹配不上,结果是一个空DataFrame,将连接方式改成outer后才能得到非空的DataFrame。

left_on和right_on也可以指定一个array数组,长度与DataFrame中的列长度相等,连接原理不变。

left_index: 设置第一个DataFrame用行索引进行连接,默认为False。

right_index: 设置第二个DataFrame用行索引进行连接,默认为False。

left_on和right_on可以与left_index和right_index混合使用,当指定了其中一个DataFrame的连接列时,必须同时指定另一个DataFrame的连接列,否则会报错。两个DataFrame都有两种方式指定连接列,所以组合的方式有四种。

DataFrame

left

right

四种指定连接列的组合

left_on

right_on

left_index

right_index

left_on

right_index

left_index

right_on

五自定义相同列名的后缀


suffixes: 当被合并的两个DataFrame中有相同的列名时,会给列名拼接后缀以作区分,默认为('_x', '_y')。可以修改suffixes参数进行设置,传入长度为2的字符串元组。

六连接列是否存在DataFrame中


indicator: 在结果中增加一列,显示连接列是否存在于两个DataFrame中。indicator默认为False,如果修改为True,会增加一列,增加的列名默认为_merge。

给indicator参数指定一个值,则将这个值作为新增列的列名。在新增的列中,如果连接列同时存在于两个DataFrame中,则对应的值为both,如果连接列只存在其中一个DataFrame中,则对应的值为left_only或right_only。

七连接列的对应关系


validate: 用于指定两个DataFrame连接列的对应关系,有one_to_one(一对一),one_to_many(一对多),many_to_one(多对一),many_to_many(多对多)四种对应方式。默认为None,merge()方法自动根据两个DataFrame的连接列采用适合的对应方式。

one_to_one: 检查两个DataFrame中的连接列,值必须唯一。

one_to_many: 检查第一个DataFrame中的连接列,值必须唯一。

many_to_one: 检查第二个DataFrame中的连接列,值必须唯一。

many_to_many: 两个DataFrame连接列中的值都可以不唯一。

使用多对多的对应方式,任何情况都满足,合并不会报错。而使用其他三种方式时,如果one对应的DataFrame中连接列的值不唯一,会报错。所以,在对数据不够了解、也没有特别的对应要求时,不用指定validate参数。

以上就是Pandas合并方法merge()的介绍,本文都是以DataFrame为例,Series合并以及Series与DataFrame合并的原理相似。

如果需要本文代码,可以点击关注公众号“Python碎片”,然后在后台回复“pandas13”关键字获取完整代码。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python 碎片 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档