Pandas groupby可按另一列中的每个逗号分隔值获取一列的总数

Pandas是一个强大的数据分析工具，而groupby是Pandas中用于分组数据的函数。它可以按照指定的列或多个列对数据进行分组，并对每个分组进行聚合操作。

对于给定的数据集，如果我们想要按照某一列中的每个逗号分隔值进行分组，并获取另一列的总数，可以按照以下步骤进行操作：

导入Pandas库并读取数据集：

import pandas as pd

# 读取数据集
data = pd.read_csv('data.csv')

创建一个新的列，将需要分隔的列中的每个逗号分隔值拆分成多个值，并展开成新的行：

# 按照逗号分隔值拆分列，并展开成新的行
data = data.assign(column_name=data['column_name'].str.split(',')).explode('column_name')

使用groupby函数按照拆分后的列进行分组，并对另一列进行计数操作：

# 按照拆分后的列进行分组，并对另一列进行计数
result = data.groupby('column_name')['another_column'].count()

在上述代码中，'column_name'是需要按照逗号分隔值进行分组的列名，'another_column'是需要获取总数的另一列名。

Pandas提供了丰富的功能和方法，可以对数据进行灵活的操作和分析。在云计算领域，可以使用Pandas进行数据预处理、数据分析和数据可视化等工作。

腾讯云提供了云服务器、云数据库、云存储等多种产品，可以满足云计算的各种需求。具体推荐的腾讯云产品和产品介绍链接地址可以根据实际情况进行选择和提供。

相关·内容

Pandas中求某一列中每个列表的平均值

一、前言前几天在Python最强王者交流群【冫马讠成】问了一道Pandas处理的问题，如下图所示。...：二、实现过程方法一这里【瑜亮老师】给出一个可行的代码，大家后面遇到了，可以对应的修改下，事半功倍，代码如下所示： df['dmean'] = df['marks'].map(lambda x:...np.mean(x)) 运行之后，结果就是想要的了。...(np.mean) 运行之后，结果就是想要的了。...完美的解决了粉丝的问题！三、总结大家好，我是皮皮。这篇文章主要盘点了一道使用Pandas处理数据的问题，文中针对该问题给出了具体的解析和代码实现，一共两个方法，帮助粉丝顺利解决了问题。

4.9K1 0

用过Excel，就会获取pandas数据框架中的值、行和列

在Excel中，我们可以看到行、列和单元格，可以使用“=”号或在公式中引用这些值。...在Python中，数据存储在计算机内存中（即，用户不能直接看到），幸运的是pandas库提供了获取值、行和列的简单方法。先准备一个数据框架，这样我们就有一些要处理的东西了。...df.columns 提供列（标题）名称的列表。 df.shape 显示数据框架的维度，在本例中为4行5列。图3 使用pandas获取列有几种方法可以在pandas中获取列。...要获取前三行，可以执行以下操作：图8 使用pandas获取单元格值要获取单个单元格值，我们需要使用行和列的交集。...记住这种表示法的一个更简单的方法是：df[列名]提供一列，然后添加另一个[行索引]将提供该列中的特定项。假设我们想获取第2行Mary Jane所在的城市。

19.2K6 0

一场pandas与SQL的巅峰大战（二）

四、窗口函数 row_number hive中的row_number函数通常用来分组计数，每组内的序号从1开始增加，且没有重复值。比如我们对每个uid的订单按照订单时间倒序排列，获取其排序的序号。...现在我们要做的是让多个订单id显示在同一行，用逗号分隔开。...在pandas中，我们采用的做法是先把原来orderid列转为字符串形式，并在每一个id末尾添加一个逗号作为分割符，然后采用字符串相加的方式，将每个uid对应的字符串类型的订单id拼接到一起。...我们来看在pandas中的实现。目标是把上一节合并起来的用逗号分隔的数组拆分开。...，这是因为用逗号分隔的时候，最后一个元素为空。

2.3K2 0

整理了25个Pandas实用技巧

神奇的是，pandas已经将第一列作为索引了： ? 需要注意的是，如果你想要你的工作在未来可复制，那么read_clipboard()并不值得推荐。...类似地，你可以通过mean()和isna()函数找出每一列中缺失值的百分比。 ? 如果你想要舍弃那些包含了缺失值的列，你可以使用dropna()函数： ?...或者你想要舍弃那么缺失值占比超过10%的列，你可以给dropna()设置一个阈值： ? len(ufo)返回总行数，我们将它乘以0.9，以告诉pandas保留那些至少90%的值不是缺失值的列。...我们可以通过链式调用函数来应用更多的格式化： ? 我们现在隐藏了索引，将Close列中的最小值高亮成红色，将Close列中的最大值高亮成浅绿色。这里有另一个DataFrame格式化的例子： ?...你可以点击"toggle details"获取更多信息第三部分显示列之间的关联热力图第四部分为缺失值情况报告第五部分显示该数据及的前几行使用示例如下（只显示第一部分的报告）： ?

2.8K4 0

整理了25个Pandas实用技巧（下）

：神奇的是，pandas已经将第一列作为索引了：需要注意的是，如果你想要你的工作在未来可复制，那么read_clipboard()并不值得推荐。...类似地，你可以通过mean()和isna()函数找出每一列中缺失值的百分比。...，以告诉pandas保留那些至少90%的值不是缺失值的列。...我们可以通过链式调用函数来应用更多的格式化：我们现在隐藏了索引，将Close列中的最小值高亮成红色，将Close列中的最大值高亮成浅绿色。...你可以点击"toggle details"获取更多信息第三部分显示列之间的关联热力图第四部分为缺失值情况报告第五部分显示该数据及的前几行使用示例如下（只显示第一部分的报告）：

2.4K1 0

Python数据分析及可视化-小测验

读取datasets目录下chipo.csv并显示前十行数据（赋值给变量chipo） csv文件默认的分隔符是逗号，pd.read_csv方法中sep关键字参数的默认值也为逗号，所以可以不写sep关键字...读取datasets目录下special_top250.csv并显示前五行数据（赋值给变量top250） csv文件默认的分隔符是逗号，pd.read_csv方法中sep关键字参数的默认值也为逗号，所以可以不写...] tags = ['偏短','标准','正常','偏长','超长'] 2.5 第五步：具体显示每个分组下的电影数量在pandas官网中查询pandas.cut函数中的参数，其中参数bins是数据区间分割值...文件数据，并显示前五行记录 csv文件默认的分隔符是逗号，pd.read_csv方法中sep关键字参数的默认值也为逗号，所以可以不写sep关键字。...df中，并生成一列清洗之后的数据列，名为clean_review df['clean_review'] = df.review.apply(clean_text) df.head() 上面一段代码的运行结果如下图所示

2.2K2 0

Excel应用实践19：根据工作表某列中的值从另一工作簿中获取数据

excelperfect 在下图1所示的工作簿Data.xlsx的工作表Sheet1中，存放着待使用的数据。 ?...图1 在下图2所示的工作簿GetData.xlsm中，根据列C中的数据，在上图1的工作簿Data.xlsx的列E中查找是否存在相应数据的单元格。 ?...图2 然后，将Data.xlsx中对应行的列I至列K单元格中的数据复制到GetData.xlsm相应的单元格中，如下图3所示。 ?... 3 Then MsgBox ("请选择列C中的单元格或单元格区域.")...Exit Sub Else '遍历所选的单元格 For Each rng In Selection '在数据工作表中查找相应的值所在的单元格

18.9K3 0

Python pandas十分钟教程

统计某列数据信息以下是一些用来查看数据某一列信息的几个函数： df['Contour'].value_counts() : 返回计算列中每个值出现次数。...df['Contour'].isnull().sum()：返回'Contour'列中的空值计数 df['pH'].notnull().sum()：返回“pH”列中非空值的计数 df['Depth']....unique()：返回'Depth'列中的唯一值 df.columns：返回所有列的名称选择数据列选择：如果只想选择一列，可以使用df['Group']....基本使用方法如下： df.loc[:,['Contour']]：选择'Contour'列的所有数据。其中单冒号:选择所有行。在逗号的左侧，您可以指定所需的行，并在逗号的右侧指定列。...数据清洗数据清洗是数据处理一个绕不过去的坎，通常我们收集到的数据都是不完整的，缺失值、异常值等等都是需要我们处理的，Pandas中给我们提供了多个数据清洗的函数。

9.8K5 0

七步搞定一个综合案例，掌握pandas进阶用法！

每个城市会销售各种各样的产品，现在想要统计每个城市各个子类别中，累计销售数量筛选出每个城市每个子类别中销量占比top 50%的至多3个产品。...注意到prod_name包含的信息较多，逗号前是英文和中文名称，逗号后是一些补充信息，我们使用split把它分隔开，因为分割出来是两个字段，所以要写成下面的形式，注意最后要加上str。...2.分组聚合按照需求，需要计算每个城市每个子类别下产品的销售总量，因此需要按照city和sub_cate分组，并对amt求和。为计算占比，求得的和还需要和原始数据合在一块作为新的一列。...计算的结果作为新的一列amt_sum添加到原数据上。...result.to_excel('result.xlsx', index=None) 小结本文使用pandas，通过7个步骤实现了一个综合案例：筛选出每个城市每个子类别中销量占比top 50%的至多3

2.7K4 0

【Python】这25个Pandas高频实用技巧，不得不服！

列序反转跟之前的技巧一样，你也可以使用loc函数将列从左至右反转 drinks.loc[:, ::-1].head() 逗号之前的冒号表示选择所有行，逗号之后的::-1表示反转所有的列，这就是为什么...按列从多个文件中构建DataFrame 上一个技巧对于数据集中每个文件包含行记录很有用。但是如果数据集中的每个文件包含的列信息呢？...类似地，你可以通过mean()和isna()函数找出每一列中缺失值的百分比。...='red') .highlight_max('Close', color='lightgreen') ) 我们现在隐藏了索引，将Close列中的最小值高亮成红色，将Close列中的最大值高亮成浅绿色...你可以点击"toggle details"获取更多信息；第三部分显示列之间的关联热力图；第四部分为缺失值情况报告；第五部分显示该数据及的前几行。

6.6K5 0

Pandas必会的方法汇总，数据分析必备！

，我们的数据除了数值之外，还有字符串，还有时间序列等，比如：我们通过爬虫获取到了存储在数据库中的数据。...对象可以是列表\ndarray、字典以及DataFrame中的某一行或某一列 2 pd.DataFrame(data,columns = [ ],index = [ ]) 创建DataFrame。...举例：判断city列的值是否为北京 df_inner['city'].isin(['beijing']) 七、分组的方法序号方法说明 1 DataFrame.groupby() 分组函数 2 pandas.cut...默认分隔符为逗号 2 read_table 从文件、URL、文件型对象中加载带分隔符的数据。...默认分隔符为制表符（t） 3 read_ fwf 读取定宽列格式数据（也就是说，没有分隔符） 4 read_clipboard 读取剪贴板中的数据，可以看做read_table的剪贴板版。

5.9K2 0

Pandas必会的方法汇总，建议收藏！

，还有时间序列等，比如：我们通过爬虫获取到了存储在数据库中的数据。...对象可以是列表\ndarray、字典以及DataFrame中的某一行或某一列 2 pd.DataFrame(data,columns = [ ],index = [ ]) 创建DataFrame。...举例：判断city列的值是否为北京 df_inner['city'].isin(['beijing']) 七、分组的方法序号方法说明 1 DataFrame.groupby() 分组函数 2 pandas.cut...默认分隔符为逗号 2 read_table 从文件、URL、文件型对象中加载带分隔符的数据。...默认分隔符为制表符（t） 3 read_ fwf 读取定宽列格式数据（也就是说，没有分隔符） 4 read_clipboard 读取剪贴板中的数据，可以看做read_table的剪贴板版。

4.8K4 0

整理了 25 个 Pandas 实用技巧，拿走不谢！

列序反转跟之前的技巧一样，你也可以使用loc函数将列从左至右反转： ? 逗号之前的冒号表示选择所有行，逗号之后的::-1表示反转所有的列，这就是为什么country这一列现在在最右边。 6....类似地，你可以通过mean()和isna()函数找出每一列中缺失值的百分比。 ? 如果你想要舍弃那些包含了缺失值的列，你可以使用dropna()函数： ?...你可以看到，每个订单的总价格在每一行中显示出来了。这样我们就能方便地甲酸每个订单的价格占该订单的总价格的百分比： ? 20. 选取行和列的切片让我们看一眼另一个数据集： ?...这个结果展示了每一对类别变量组合后的记录总数。 23. 将连续数据转变成类别数据让我们来看一下Titanic数据集中的Age那一列： ?...我们现在隐藏了索引，将Close列中的最小值高亮成红色，将Close列中的最大值高亮成浅绿色。这里有另一个DataFrame格式化的例子： ?

3.2K1 0

numpy和pandas库实战——批量得到文件夹下多个CSV文件中的第一列数据并求其最值

/前言/ 前几天群里有个小伙伴问了一个问题，关于Python读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值，大家讨论的甚为激烈，在此总结了两个方法，希望后面有遇到该问题的小伙伴可以少走弯路...2、现在我们想对第一列或者第二列等数据进行操作，以最大值和最小值的求取为例，这里以第一列为目标数据，来进行求值。 ?...3、其中使用pandas库来实现读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值的代码如下图所示。 ? 4、通过pandas库求取的结果如下图所示。 ?...通过该方法，便可以快速的取到文件夹下所有文件的第一列的最大值和最小值。 5、下面使用numpy库来实现读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值的代码如下图所示。 ?.../小结/ 本文基于Python，使用numpy库和pandas库实现了读取文件夹下多个CSV文件，并求取文件中第一列数据的最大值和最小值，当然除了这两种方法之外，肯定还有其他的方法也可以做得到的，欢迎大家积极探讨

9.5K2 0

初学者的10种Python技巧

lambda 是关键字，提供了对表中的值执行操作的快捷方式。...其中第一列是DataFrame索引，第二列是代表单行if输出的系列。 lambda 代表“匿名函数”。...‘${:,.2f}’.format(data[‘price’].sum()) 将输出： '$15,883.66' 逗号分隔符使您很容易看到到目前为止我们已经损失了多少现金。...＃3-创建数据透视表接下来，假设我们要查看每个植物物种花费的金额。我们可以使用pd.pivot_table（）或 .groupby（）进行聚合。...将每个值除以所有行的总和，然后将该输出分配给名为“ perc”的新列： piv['perc'] = piv['price'].div(piv['price'].sum(axis=0)) ?

2.9K2 0

对比MySQL，学会在Pandas中实现SQL的常用操作

1.Select数据查询在SQL中，选择是使用您要选择的列（用逗号分隔）或（*选择所有列）来完成的。...4.group by分组统计在Pandas中，SQL的GROUP BY操作是使用类似命名的groupby()方法执行的。...groupby()通常是指一个过程，在该过程中，我们希望将数据集分成多个组，应用某些功能（通常是聚合），然后将各组组合在一起。常见的SQL操作是获取整个数据集中每个组中的记录数。...这是因为count()将函数应用于每一列，并返回每一列中的记录数。 df.groupby('性别').count() 结果如下： ? 如果想要使用count()方法应用于单个列的话，应该这样做。...通过将一列列传递给方法，来完成按多个列分组groupby()。

2.5K2 0

UCB Data100：数据科学的原理和技巧：第一章到第五章

2.2.2.1.1 从 CSV 文件中在 Data 100 中，我们的数据通常以 CSV（逗号分隔值）文件格式存储。...一组值用于创建数据透视表的索引；另一组用于定义列名。表中每个单元格中包含的值对应于每个索引-列对的聚合数据。这是一个过程的示例：理解数据透视表的最佳方法是看它的实际应用。...5.1.1.1 CSV CSV，代表逗号分隔值，是一种常见的表格数据格式。在过去的两堂pandas讲座中，我们简要涉及了文件格式的概念：数据在文件中的编码方式。...数据中的每一列，或字段，由逗号,分隔（因此是逗号分隔的！）。 5.1.1.2 TSV 另一种常见的文件类型是TSV（制表符分隔值）。在 TSV 中，记录仍然由换行符\n分隔，而字段由制表符\t分隔。...pandas如何区分逗号分隔符与字段本身中的逗号，例如8,900？为了解决这个问题，可以查看quotechar参数。

6942 0

《Python for Excel》读书笔记连载12：使用pandas进行数据分析之理解数据

在数据框架的所有行中获取统计信息有时不够好，你需要更细粒度的信息，例如，每个类别的均值，这是下面的内容。分组再次使用我们的示例数据框架df，让我们找出每个大陆的平均分数。...例如，下面是如何获得每组最大值和最小值之间的差值： df.groupby(["continent"]).agg(lambdax: x.max() - x.min()) 在Excel中获取每个组的统计信息的常用方法是使用透视表...index和columns分别定义数据框架的哪一列将成为透视表的行和列标签。...最后，margins与Excel中的总计（GrandTotal）相对应，即如果不使用margins和margins_name方式，则Total列和行将不会显示：总之，数据透视意味着获取列（在本例中为...Region）的唯一值，并将其转换为透视表的列标题，从而聚合来自另一列的值。

4.3K3 0

pandas操作txt文件的方便之处

有时候到手的数据基本是固定分隔符分隔的几个文件，需要重里面做一些数据统计，比如去重，计算某一列的和，两个文件的并集等等，如果能够像sql一样操作txt文件就好了，这就是pandas带来的好处如何加载txt...运行指令如下 uPapa=papa.drop_duplicates(['paxi_id']) 结果如下如何获取一列的去重的值？去重后有多少个？...运行指令如下 papa[ ( papa['grade'] == 50 ) | ( papa['grade'] == 100 ) ] 结果如下如何计算某一列各个取值的个数?...，会一次把所有的图都画出来结果如下如何对两个txt的文件根据一列做join?...另一个文件为xixi.txt paxi_id type 1 3 2 4 3 3 4 4 5 3 执行指令如下 xixi=pandas.read_csv('xixi.txt',sep='\t') uXixi

1371 0

数据城堡参赛代码实战篇（一）---手把手教你使用pandas

Series可以按下面的方式进行创建： obj=pd.Series([4,7,5,3]) 输出如下： 0 4 1 7 2 5 3 3 其中，第一列是Series的索引列（index），第二列是数值列（values...DataFrame DataFrame是一个表格型的数据结构，既有行索引又有列索引。行索引称为index，标示每一行数据，列索引称为columns，标示每一列数据。...可以简单理解为一个数据表，列索引为数据表中除主键外的一个个字段，行索引相当于数据表中每一条数据的主键值。...学生id,学院编号,成绩排名 0,9,1 1,9,2 8,6,1565 9,6,1570 （6）助学金数据字段描述和示例如下：学生id,助学金金额（分隔符为半角逗号...groupby的使用如下： #首先，使用groupby，指定首先按照id进行分组，再按照how列进行分组， #对于分#组后的数据，我们取amount列，并进行加总处理 card_group=card_df.groupby

1.3K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云