首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你做一个“渣”数据师,用Python代替老情人Excel

4、使用工作表中的列作为索引 除非明确提到,否则索引列会添加到DataFrame中,默认情况下从0开始。...Python提供了许多不同的方法来对DataFrame进行分割,我们将使用它们中的几个来了解它是如何工作的。...8、筛选不在列表或Excel中的值 ? 9、用多个条件筛选多列数据 输入应为列一个表,此方法相当于excel中的高级过滤器功能: ? 10、根据数字条件过滤 ?...如果想要用特定值查看整个DataFrame,可以使用drop_duplicates函数: ? 15、排序 对特定列排序,默认升序: ?...有四种合并选项: left——使用左侧DataFrame中的共享列并匹配右侧DataFrame,N/A为NaN; right——使用右侧DataFrame中的共享列并匹配左侧DataFrame,N/A为

8.4K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    pandas | DataFrame中的排序与汇总方法

    今天我们来聊聊如何对一个DataFrame根据我们的需要进行排序以及一些汇总运算的使用方法。...Series当中的排序方法有两个,一个是sort_index,顾名思义根据Series中的索引对这些值进行排序。另一个是sort_values,根据Series中的值来排序。...汇总运算 最后我们来介绍一下DataFrame当中的汇总运算,汇总运算也就是聚合运算,比如我们最常见的sum方法,对一批数据进行聚合求和。DataFrame当中同样有类似的方法,我们一个一个来看。...首先是sum,我们可以使用sum来对DataFrame进行求和,如果不传任何参数,默认是对每一行进行求和。 ? 除了sum之外,另一个常用的就是mean,可以针对一行或者是一列求平均。 ?...另一个我个人觉得很好用的方法是descirbe,可以返回DataFrame当中的整体信息。比如每一列的均值、样本数量、标准差、最小值、最大值等等。

    4.7K50

    pandas | DataFrame中的排序与汇总方法

    今天我们来聊聊如何对一个DataFrame根据我们的需要进行排序以及一些汇总运算的使用方法。...Series当中的排序方法有两个,一个是sort_index,顾名思义根据Series中的索引对这些值进行排序。另一个是sort_values,根据Series中的值来排序。...我们也可以通过axis参数指定以列为单位计算: 汇总运算 最后我们来介绍一下DataFrame当中的汇总运算,汇总运算也就是聚合运算,比如我们最常见的sum方法,对一批数据进行聚合求和。...DataFrame当中同样有类似的方法,我们一个一个来看。 首先是sum,我们可以使用sum来对DataFrame进行求和,如果不传任何参数,默认是对每一行进行求和。...另一个我个人觉得很好用的方法是descirbe,可以返回DataFrame当中的整体信息。比如每一列的均值、样本数量、标准差、最小值、最大值等等。

    3.9K20

    Pandas的apply方法的应用练习

    data = {'column1':[1, 2, 15, 4, 8]} df = pd.DataFrame(data) 请创建一个新的列'new_column',其值为'column1'中每个元素的两倍...函数用来两列之和,并将最终的结果添加到新的列'sum_columns'当中 import pandas as pd # 创建一个示例 DataFrame data = {'column1'...,然后使用apply方法将该函数应用于DataFrame的每一行 # 编写函数将学生成绩相加 def calculate_overall_score(row): row['Overall Score...,将DataFrame中的字符串列中的所有数字提取出来并拼接成一个新的字符串列。 ...my_function,它接受DataFrame的一行作为参数,并根据某些条件修改该行的值 将年龄大于等于18的人的性别修改为”已成年“; 在Seris中使用apply方法 def my_function

    11210

    整理了25个Pandas实用技巧

    从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: ? Series扩展成DataFrame 让我们创建一个新的示例DataFrame: ?...如果我们想要将第二列扩展成DataFrame,我们可以对那一列使用apply()函数并传递给Series constructor: ?...如果你想要计算每个订单的总价格,你可以对order_id使用groupby(),再对每个group的item_price进行求和。 ? 但是,事实上你不可能在聚合时仅使用一个函数,比如sum()。...我们现在隐藏了索引,将Close列中的最小值高亮成红色,将Close列中的最大值高亮成浅绿色。 这里有另一个DataFrame格式化的例子: ?

    2.8K40

    整理了25个Pandas实用技巧(下)

    从剪贴板中创建DataFrame 假设你将一些数据储存在Excel或者Google Sheet中,你又想要尽快地将他们读取至DataFrame中。 你需要选择这些数据并复制至剪贴板。...Series中需要的是索引: 最后,我们将该索引传递给isin()函数,该函数会把它当成genre列表: In [68]: movies[movies.genre.isin(counts.nlargest...比如说,让我们以", "来划分location这一列: 如果我们只想保留第0列作为city name,我们仅需要选择那一列并保存至DataFrame: Series扩展成DataFrame 让我们创建一个新的示例...比如,这里是订单号为1的总价格: 如果你想要计算每个订单的总价格,你可以对order_id使用groupby(),再对每个group的item_price进行求和。...如果你想对这个结果进行过滤,只想显示“五数概括法”(five-number summary)的信息,你可以使用loc函数并传递"min"到"max"的切片: 如果你不是对所有列都感兴趣,你也可以传递列名的切片

    2.4K10

    Python数学建模算法与应用 - 常用Python命令及程序注解

    在代码执行过程中,列表推导式会根据循环的嵌套顺序,首先遍历 a 的子列表 b,然后遍历子列表 b 的元素 c,并将每个 c 添加到最终的列表 d 中。...s1 = d.groupby('A').mean() 这行代码根据 'A' 列的值对 DataFrame d 进行分组,并计算每个分组的均值。...s2 = d.groupby('A').apply(sum) 这行代码根据 'A' 列的值对 DataFrame d 进行分组,并对每个分组应用 sum 函数进行求和。...总体而言,该程序生成一个随机的 DataFrame,将其拆分为两部分,再将它们合并在一起,最后根据 'A' 列的值计算分组的均值和求和。...groupby 是 pandas 中的一个函数,用于根据一个或多个列的值对 DataFrame 进行分组操作。它可以用于数据聚合、统计和分析。

    1.5K30

    Pandas图鉴(三):DataFrames

    NumPy 数组和 Pandas DataFrame都没有这样做。另一种方法(如果你事先知道行的数量)是用类似 DataFrame(np.zeros) 的东西来手动预分配内存。...所有的算术运算都是根据行和列的标签来排列的: 在DataFrames和Series的混合操作中,Series的行为(和广播)就像一个行-向量,并相应地被对齐: 可能是为了与列表和一维NumPy向量保持一致...垂直stacking 这可能是将两个或多个DataFrame合并为一个的最简单的方法:你从第一个DataFrame中提取行,并将第二个DataFrame中的行附加到底部。...就像原来的join一样,on列与第一个DataFrame有关,而其他DataFrame是根据它们的索引来连接的。 插入和删除 由于DataFrame是一个列的集合,对行的操作比对列的操作更容易。...默认情况下,Pandas会对任何可远程求和的东西进行求和,所以必须缩小你的选择范围,如下图: 注意,当对单列求和时,会得到一个Series而不是一个DataFrame。

    44420

    groupby函数详解

    1 groupby()核心用法 (1)根据DataFrame本身的某一列或多列内容进行分组聚合,(a)若按某一列聚合,则新DataFrame将根据某一列的内容分为不同的维度进行拆解,同时将同一维度的再进行聚合...dtypes对列进行分组,此时需指定axis=1,否则,groupby默认根据axis=0进行分组,而行数据由于类型不统一,故无法根据dtypes对列进行分组,结果为空。...(6)可使用一个/组列名,或者一个/组字符串数组对由DataFrame产生的GroupBy对象,进行索引,从而实现选取部分列进行聚合的目的即: (1)根据key1键对data1列数据聚合 df.groupby...根据某个键入key1聚合分组时,组引入列表['data1','data2'],此处对data2外加中括号是一个意思,只是影响输出格式。...(inplace=True) #将聚合表的index转为普通列 #对聚合表增加“各列统计求和”的行,同时指定参与求和的列,即“号码归属省”列需排除; MT_fs.loc['总计']=MT_fs.loc

    3.8K11

    快速介绍Python数据分析库pandas的基础知识和代码示例

    注意:还有另一个类似的函数pd。read_excel用于excel文件。...在本例中,将新行初始化为python字典,并使用append()方法将该行追加到DataFrame。...通常回根据一个或多个列的值对panda DataFrame进行排序,或者根据panda DataFrame的行索引值或行名称进行排序。 例如,我们希望按学生的名字按升序排序。...我们可以创建一组类别,并对类别应用一个函数。这是一个简单的概念,但却是我们经常使用的极有价值的技术。Groupby的概念很重要,因为它能够有效地聚合数据,无论是在性能上还是在代码数量上都非常出色。...假设我们想按性别将值分组,并计算物理和化学列的平均值和标准差。

    8.1K20

    可自动构造机器学习特征的Python库

    另一方面,「聚合」是跨表实现的,并使用一对多的关联来对观测值分组,然后计算统计量。...这个过程包括根据不同客户对贷款表进行分组并计算聚合后的统计量,然后将结果整合到客户数据中。以下是我们在 Python 中使用 Pandas 库执行此操作。...在将该数据框添加到实体集中后,我们检查整个实体集: ? 列的数据类型已根据我们指定的修正方案被正确推断出来。接下来,我们需要指定实体集中表是如何关联的。...它们只是我们用来构造新特征的操作: 聚合:根据父与子(一对多)的关联完成的操作,也就是根据父亲分组并计算儿子的统计量。...一个例子就是根据 client_id 对 loan 表分组并找到每个客户的最大贷款额。 转换:对一张表中一或多列完成的操作。一个例子就是取一张表中两列之间的差值或者取一列的绝对值。

    1.9K30

    直观地解释和可视化每个复杂的DataFrame操作

    要记住:从外观上看,堆栈采用表的二维性并将列堆栈为多级索引。 Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。...合并不是pandas的功能,而是附加到DataFrame。始终假定合并所在的DataFrame是“左表”,在函数中作为参数调用的DataFrame是“右表”,并带有相应的键。...默认情况下,合并功能执行内部联接:如果每个DataFrame的键名均未列在另一个键中,则该键不包含在合并的DataFrame中。...另一方面,如果一个键在同一DataFrame中列出两次,则在合并表中将列出同一键的每个值组合。...串联是将附加元素附加到现有主体上,而不是添加新信息(就像逐列联接一样)。由于每个索引/行都是一个单独的项目,因此串联将其他项目添加到DataFrame中,这可以看作是行的列表。

    13.3K20

    资源 | Feature Tools:可自动构造机器学习特征的Python库

    另一方面,「聚合」是跨表实现的,并使用一对多的关联来对观测值分组,然后计算统计量。...这个过程包括根据不同客户对贷款表进行分组并计算聚合后的统计量,然后将结果整合到客户数据中。以下是我们在 Python 中使用 Pandas 库执行此操作。...在将该数据框添加到实体集中后,我们检查整个实体集: ? 列的数据类型已根据我们指定的修正方案被正确推断出来。接下来,我们需要指定实体集中表是如何关联的。...它们只是我们用来构造新特征的操作: 聚合:根据父与子(一对多)的关联完成的操作,也就是根据父亲分组并计算儿子的统计量。...一个例子就是根据 client_id 对 loan 表分组并找到每个客户的最大贷款额。 转换:对一张表中一或多列完成的操作。一个例子就是取一张表中两列之间的差值或者取一列的绝对值。

    2.2K20

    【数据处理包Pandas】DataFrame数据选择的基本方法

    副本df2与原始的 DataFrame df具有相同的数据和结构,但它们是独立的对象,对其中一个对象的操作不会影响另一个对象。因此,通过这样的方式可以安全地对df2进行任何需要的修改或处理。...对 DataFrame df2中的每一行,从 ‘Q1’ 到 ‘Q4’ 列的值进行求和: df2.apply(lambda x:sum(x['Q1':'Q4']),axis=1) # 一次处理一行 使用了...因此,该代码将会对 DataFrame df2中的每一行,从 ‘Q1’ 到 ‘Q4’ 列的值进行求和,并返回一个包含每一行求和结果的 Series。...按照'team'列进行分组,并对每个分组应用了一个函数。...3、返回一个包含每个分组中 ‘Q1’ 和 ‘Q4’ 列的最大值: df.groupby('team')['Q1','Q4'].apply(max) 对 DataFrame df根据 ‘team’ 列进行分组

    8500

    python数据分析——数据的选择和运算

    (data) data[1:5:2,1:5:2] 【例】请使用Python对如下的二维数组进行提取,选择第一行第二列的数据元素并输出。...数据获取 ①列索引取值 使用单个值或序列,可以从DataFrame中索引出一个或多个列。...关键技术:可以利用行号索引和count()方法来进行计数,程序代码如下所示: 【例】对于给定的DataFrame数据,按索引值进行求和并输出结果。...关键技术:对于例子给定的DataFrame数据,按行进行求和并输出结果。...可以采用求和函数sum(),设置参数axis为0,则表示按纵轴元素求和,设置参数axis为1,则表示按横轴元素求和,程序代码如下所示: 均值运算 在Python中通过调用DataFrame对象的mean

    19310
    领券