首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Series 序列是表示 DataFrame 的一列的数据结构。使用序列类似于引用电子表格的列。 4. Index 每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。...在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...在 Pandas 中,您使用特殊方法从/向 Excel 文件读取和写入。 让我们首先基于上面示例中的数据框,创建一个新的 Excel 文件。 tips.to_excel("....数据操作 1. 列操作 在电子表格中,公式通常在单个单元格中创建,然后拖入其他单元格以计算其他列的公式。在 Pandas 中,您可以直接对整列进行操作。...; 如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表中的所有列,而不仅仅是单个指定的列; 它支持更复杂的连接操作; 其他注意事项 1.

19.6K20

不再纠结,一文详解pandas中的map、apply、applymap、groupby、agg...

首先读入数据,这里使用到的全美婴儿姓名数据,包含了1880-2018年全美每年对应每个姓名的新生儿数据,在jupyterlab中读入数据并打印数据集的一些基本信息以了解我们的数据集: import pandas...可以看到这里实现了跟map()一样的功能。 输入多列数据 apply()最特别的地方在于其可以同时处理多列数据,我们先来了解一下如何处理多列数据输入单列数据输出的情况。...譬如这里我们编写一个使用到多列数据的函数用于拼成对于每一行描述性的话,并在apply()用lambda函数传递多个值进编写好的函数中(当调用DataFrame.apply()时,apply()在串行过程中实际处理的是每一行数据...结合tqdm给apply()过程添加进度条 我们知道apply()在运算时实际上仍然是一行一行遍历的方式,因此在计算量很大时如果有一个进度条来监视运行进度就很舒服。...tqdm:用于添加代码进度条的第三方库 tqdm对pandas也是有着很好的支持。

5K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    不再纠结,一文详解pandas中的map、apply、applymap、groupby、agg...

    首先读入数据,这里使用到的全美婴儿姓名数据,包含了1880-2018年全美每年对应每个姓名的新生儿数据,在jupyterlab中读入数据并打印数据集的一些基本信息以了解我们的数据集: import pandas...输入多列数据 apply()最特别的地方在于其可以同时处理多列数据,我们先来了解一下如何处理多列数据输入单列数据输出的情况。...譬如这里我们编写一个使用到多列数据的函数用于拼成对于每一行描述性的话,并在apply()用lambda函数传递多个值进编写好的函数中(当调用DataFrame.apply()时,apply()在串行过程中实际处理的是每一行数据...tqdm:用于添加代码进度条的第三方库 tqdm对pandas也是有着很好的支持。...data['count'].agg(['min','max','median']) 聚合数据框 对数据框进行聚合时因为有多列,所以要使用字典的方式传入聚合方案: data.agg({'year'

    5.9K31

    没错,这篇文章教你妙用Pandas轻松处理大规模数据

    而且与 Pandas 不同,这些工具缺少可用于高质量数据清洗、勘测和分析的特征集。 因此对于中等规模的数据,我们最好挖掘 Pandas 的潜能,而不是转而使用其他工具。...在这篇文章中,我们将介绍 Pandas 的内存使用情况,以及如何通过为数据框(dataframe)中的列(column)选择适当的数据类型,将数据框的内存占用量减少近 90%。...最原始的数据是 127 个独立的 CSV 文件,不过我们已经使用 csvkit 合并了这些文件,并且在第一行中为每一列添加了名字。...数据框的内部表示 在底层,Pandas 按照数据类型将列分成不同的块(blocks)。这是 Pandas 如何存储数据框前十二列的预览。 你会注意到这些数据块不会保留对列名的引用。...总结和后续步骤 我们已经了解到 Pandas 是如何存储不同类型的数据的,然后我们使用这些知识将 Pandas 里的数据框的内存使用量降低了近 90%,而这一切只需要几个简单的技巧: 将数字列 downcast

    3.7K40

    (数据科学学习手札69)详解pandas中的map、apply、applymap、groupby、agg

    年全美每年对应每个姓名的新生儿数据,在jupyterlab中读入数据并打印数据集的一些基本信息以了解我们的数据集: import pandas as pd #读入数据 data = pd.read_csv...● 多列数据   apply()最特别的地方在于其可以同时处理多列数据,譬如这里我们编写一个使用到多列数据的函数用于拼成对于每一行描述性的话,并在apply()用lambda函数传递多个值进编写好的函数中...(当调用DataFrame.apply()时,apply()在串行过程中实际处理的是每一行数据而不是Series.apply()那样每次处理单个值),注意在处理多个值时要给apply()添加参数axis...● 结合tqdm给apply()过程添加进度条   我们知道apply()在运算时实际上仍然是一行一行遍历的方式,因此在计算量很大时如果有一个进度条来监视运行进度就很舒服,在(数据科学学习手札53)Python...将传入的函数等作用于整个数据框中每一个位置的元素,因此其返回结果的形状与原数据框一致,譬如下面的简单示例,我们把婴儿姓名数据中所有的字符型数据消息小写化处理,对其他类型则原样返回: def lower_all_string

    5.1K60

    对比Excel,Python pandas在数据框架中插入列

    我们已经探讨了如何将行插入到数据框架中,并且我们必须为此创建一个定制的解决方案。将列插入数据框架要容易得多,因为pandas提供了一个内置的解决方案。我们将看到一些将列插入到数据框架的不同方法。...注意,insert()方法将覆盖原始的df。 图1 方括号法 现在给列赋值,而不是引用它。继续上一个示例: 图2 看看创建计算列有多容易?...注意,此方法还可以通过向原始df添加一个新列来覆盖它,这正是我们所需要的。但是,使用此方法无法选择要添加新列的位置,它将始终添加到数据框架的末尾。...图5 插入多列到数据框架中 insert()和”方括号”方法都允许我们一次插入一列。如果需要插入多个列,只需执行循环并逐个添加列。...但是,如果有许多列,并且数据集很大,那么循环方法将非常慢,还有其他更有效的方法,后续会介绍。 注:本文学习整理自pythoninoffice.com。

    2.9K20

    Pandas 2.2 中文官方教程和指南(四)

    例如,假设我们想看到小费金额如何随一周中的日期而变化 - DataFrameGroupBy.agg()允许您向分组的数据框传递一个字典,指示要应用于特定列的函数。...数据操作 列上的操作 在电子表格中,公式通常在单独的单元格中创建,然后通过拖动到其他单元格中以计算其他列的值。在 pandas 中,你可以直接对整列进行操作。...查看如何从现有列创建新列。 过滤 在 Excel 中,过滤是通过图形菜单完成的。 数据框可以通过多种方式进行过滤;其中最直观的是使用布尔索引。...索引值也是持久的,因此如果重新排序DataFrame的行,则特定行的标签不会更改。 查看 索引文档以获取更多关于如何有效使用Index的信息。 副本 vs....数据操作 列上的操作 在电子表格中,公式通常在单个单元格中创建,然后拖动到其他单元格以计算其他列的值。在 pandas 中,您可以直接对整个列进行操作。

    31710

    Pandas profiling 生成报告并部署的一站式解决方案

    数据集和设置 看下如何启动 pandas_profiling 库并从数据框中生成报告了。...该Overview包括总体统计的。这包括变量数(数据框的特征或列)、观察数(数据框的行)、缺失单元格、缺失单元格百分比、重复行、重复行百分比和内存中的总大小。...变量 报告的这一部分详细分析了数据集的所有变量/列/特征。显示的信息因变量的数据类型而异。 数值变量 对于数值数据类型特征,可以获得有关不同值、缺失值、最小值-最大值、平均值和负值计数的信息。...计数图是一个基本的条形图,以 x 轴作为列名,条形的长度代表存在的值的数量(没有空值)。类似的还有矩阵和树状图。 5. 样本 此部分显示数据集的前 10 行和最后 10 行。 如何保存报告?...到目前为止,我们已经了解了如何仅使用一行代码或函数生成DataFrame报告,以及报告包含的所有功能。我们可能有兴趣将此分析导出到外部文件,以便可以将其与其他应用程序集成或将其发布到 Web 上。

    3.3K10

    【Python环境】python 中数据分析几个比较常用的方法

    1,表头或是excel的索引如果是中文的话,输出会出错 解决方法:python的版本问题!换成python3就自动解决了!当然也有其他的方法,这里就不再深究 2,如果有很多列,如何输出指定的列?...一行读取数据,第二行访问指定列 3,如何为数据框添加新的列?...需求情况:有一个表格,里面的列是单价,数量,想再输出一个总价的列,或是对一些数据进行总结 解决方法:直接上代码 from pandas import read_csv; import pandas; df...需求情况:同样,十几列的数据,如果你想获取指定的输出数据,可以用方法2,但是如果想要获取的数据列比较多,只有1-2行不想要,这样就可以用指定删除列的方法了 解决方法: df.columns.delete...总结:整体来说的,python的语法在做数据分析还是相当简单的,很多的需求基本上就是一行代码搞定! 8,如何添加整行数据? df.append([1,2,34,,5])

    1.6K80

    Pandas图鉴(四):MultiIndex

    Pandas[1]是用Python分析数据的工业标准。只需敲几下键盘,就可以加载、过滤、重组和可视化数千兆字节的异质信息。...你可以同时选择行和列。 你可以学习如何使用slice来代替冒号。...例如,要读取一个有三层高的列和四层宽的索引的DataFrame,你需要指定 pd.read_csv('df.csv', header=[0,1,2], index_col=[0,1,2,3]) 这意味着前三行包含了列的信息...,后面每行的前四个字段包含了索引level(如果列中有多于一个level,你不能在 read_csv 中通过名字引用行级别,只能通过数字)。...可以像下面这样简单地更新通过外部MultiIndex level引用的列的子集: 或者如果想保持原始数据的完整性 df1 = df.assign(population=df.population*10

    62120

    Pandas入门(二)

    首先我们还是随机产生一个数据表,5行3列的数据框。保存到csv文件并读取。...0 1 2 0 6 40 24 1 5 24 56 2 59 21 44 3 58 4 25 4 83 74 58 """ # 排序 首先介绍一下如何对数据框进行排序...,总的来说,pandas提供两种排序方法,一个是根据索引值排序,一个是根据数据框中某一列或者某一行排序,这个就和Excel中的排序是一样的,但是它排序的结果是扩展到整个数据表的,不是按照单独一行或者一列排序...首先我们新添加一列,用来求每一行的最大值。然后我们根据最大值降序排序就可以了。...,我们新添加一列,列名为key1,分组的意思就是将数据框以某种标志分为不同的组,这里选择key1作为分组依据,这样就分为了两组,分组的作用的我们可以分别统计各自组内的统计量。

    1.2K50

    Streamlit颜色选择器

    导入库 第一步是导入一些库:Streamlit、numpy、pandas和matplotlib。 我们将使用numpy和pandas创建一些示例数据,并使用matplotlib生成该数据的散点图。...为此,我们首先创建一个包含100行和3列的0到100之间的随机整数的numpy数组。这将为我们提供足够在图上显示的数据。还要注意,每次使用这个函数重新运行应用程序时,数据都会更改。...这将在以后引用这些列时更加方便。...在这个函数中,我们只需要传入1,1,以表示我们正在创建一个有1行和1列的图形。 接下来,我们将调用ax.scatter,并将上面创建的user_colour变量传递给c(颜色)参数。...总结 在这个简短的教程中,我们看到了如何在Streamlit仪表板中添加一个交互式的颜色选择器。这样可以避免硬编码颜色,使你能够为仪表板用户提供更多的灵活性。

    30510

    Python数据分析实验二:Python数据预处理

    2、要求:   (1)应用Pandas库对于给定的销售数据集进行必要的数据预处理和统计分析;(2)应用Matplotlib库对描述泰坦尼克号成员的信息进行必要的可视化展示。...二、实验任务 使用Pandas和Matplotlib库分别完成以下要求: 把包含销售数据的chipotle.csv文件内容读取到一个名为chipo的数据框中,并显示该文件的前10行记录 获取chipo数据框中每列的数据类型...文件的销售数据进行分析 1、把包含销售数据的chipotle.csv文件内容读取到一个名为chipo的数据框中,并显示该文件的前10行记录 chipo = pd.read_csv("chipotle.csv...") chipo.head(10) 2、获取chipo数据框中每列的数据类型 chipo.dtypes 3、获取数据框chipo中所有订单购买商品的总数量 chipo['quantity'].sum...通过完成各种任务,我掌握了使用Pandas读取CSV文件并将数据加载到DataFrame中,如何查看DataFrame中每列的数据类型以及如何获取数据的基本统计信息。

    11700

    Pandas速查卡-Python数据科学

    ('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据框的前n行 df.tail(n) 数据框的后n行 df.shape() 行数和列数...df.info() 索引,数据类型和内存信息 df.describe() 数值列的汇总统计信息 s.value_counts(dropna=False) 查看唯一值和计数 df.apply(pd.Series.value_counts...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...加入/合并 df1.append(df2) 将df1中的行添加到df2的末尾(列数应该相同) df.concat([df1, df2],axis=1) 将df1中的列添加到df2的末尾(行数应该相同...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max

    9.2K80

    【Python篇】PyQt5 超详细教程——由入门到精通(中篇一)

    你可以将数据组织为行和列,类似于 Excel 表格或者 pandas 的 DataFrame。在应用程序中,表格控件非常适合展示结构化数据,如数据库查询结果、文件数据等。...这里我们将创建一个 3 行 2 列的表格,并手动设置表头和每个单元格的数据。...通过 setItem() 方法,我们将每条记录中的姓名和年龄填充到相应的行和列中。 6.4 使用 pandas 与 QTableWidget 在处理大量数据时,pandas 是一个非常强大的库。...6.6 总结 在这一部分中,我们学习了如何使用 QTableWidget 来展示表格数据,并结合 pandas 来处理和展示从外部文件读取的数据。...随后,我们重点讲解了 QTableWidget 控件及其与 pandas 的结合,展示了如何动态地从 CSV 文件或其他数据源加载并展示结构化数据。

    1.9K23

    DataFrames相关介绍&&文件读取

    (2)顾名思义,这个就是一个数据框,用来存储这个二维数组的相关的信息,通过行和列可以找到对应的位置的元素,这个是pandas模块里面经常使用的一种数据结构,下面的就是一个基本的数据框; 显然,这个框有三个部分组成...,一个就是行索引,一个就是列索引,还有一个就是这个框里面的数值; (3)那么这个数据框和我们之前介绍的这个序列Series有什么区别呢,这个区别肯定是有的: 通过下面的这个结构我们也是可以看出来,两个Seriss...序列合并成为了一个数据框,这个就表明了这个数据框就是很多个序列对象的集合,这里只是展示出来了两个,其实可以有更多个序列的,可以看见这些序列的行索引都是一样的,但是列索引是不一样的,合并起来之后可以共用行索引...这个时候其他的数据没有必要进行读取,这个时候我们就可以使用第二个指定列的参数就可以解决这个问题,usecols是不可以改变的; # 导入pandas模块,并以"pd"为该模块的简写 import pandas...,这个时候我们就可以添加这个columns,例如我们下面的这个案例里面添加的就是订单号,用户id,支付金额等等,这些信息可以让用户们清楚的知道某一列的数据的实际意义; # 导入pandas模块,并以"pd

    6500

    小白也能看懂的Pandas实操演示教程(下)

    5 pandas实现SQL操作 pandas实现对数据的增删改查 增:添加新行或增加新列 dict={'Name':['LiuShunxiang','Zhangshan'], 'Sex':['...删:删除表、观测行或变量列 删除整个数据框 del student2 student2 -------------------------------------------------------...不论删除行还是列,都可以通过drop方法实现,只需要设定好删除的轴即可,即调整drop方法中的axis参数。默认参数为0,即删除行观测数据,如果需要删除列变量,则需要设置为1....改:修改原始记录的值 如果发现表中的数据错了,如何更改原来的值呢?尝试结合布尔索引和赋值的方法 student3 ?...Excel中预期的那样,该如何变成列联表的形式呢?

    2.5K20

    Pandas 学习手册中文第二版:1~5

    这种探索通常涉及对DataFrame对象的结构进行修改,以删除不必要的数据,更改现有数据的格式或从其他行或列中的数据创建派生数据。 这些章节将演示如何执行这些强大而重要的操作。...具体而言,在本章中,我们将介绍: 重命名列 使用[]和.insert()添加新列 通过扩展添加列 使用连接添加列 重新排序列 替换列的内容 删除列 添加新行 连接行 通过扩展添加和替换行 使用.drop...下面通过向名为PER的sp500的子集添加新列,并将所有值初始化为0来演示这一点。...-2e/img/00225.jpeg)] 总结 在本章中,您学习了如何使用 Pandas DataFrame对象执行几种常见的数据操作,特别是通过添加或删除行和列来更改DataFrame结构的操作。...此外,我们看到了如何替换特定行和列中的数据。 在下一章中,我们将更详细地研究索引的使用,以便能够有效地从 pandas 对象内检索数据。

    8.3K10

    python数据分析——数据分类汇总与统计

    本文将介绍如何使用Python进行数据分类汇总与统计,帮助读者更好地理解和应用数据。 首先,我们需要导入一些常用的Python库,如pandas、numpy和matplotlib等。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时,DataFrame才会拥有层次化的列 2.3.返回不含行索引的聚合数据 到目前为止,所有例中的聚合数据都有由唯一的分组键组成的索引...由于并不总是需要如此,所以你可以向groupby传入as_index=False以禁用该功能。 【例12】采用参数as_index返回不含行索引的聚合数据。..., margins=False, dropna=True) 参数说明: data =原始数据,要应用透视表的数据框; index=用于分组的列名或其他分组键,出现在结果透视表的行; columns...传入margins=True参数(添加小计/总计) ,将会添加标签为ALL的行和列。

    82610
    领券