首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    手把手教你做一个“渣”数据师,用Python代替老情人Excel

    我将演示支持xls和xlsx文件扩展名的Pandas的read_excel方法。read_csv与read_excel相同,就不做深入讨论了,但我会分享一个例子。...2、一些重要的Pandas read_excel选项 ? 如果默认使用本地文件的路径,用“\”表示,接受用“/”表示,更改斜杠可以将文件添加到Python文件所在的文件夹中。...可以用工作表的名字,或一个整数值来当作工作表的index。 ? 4、使用工作表中的列作为索引 除非明确提到,否则索引列会添加到DataFrame中,默认情况下从0开始。...4、将总列添加到已存在的数据集 ? 5、特定列的总和,使用loc函数 ? 或者,我们可以用以下方法: ? 6、用drop函数删除行 ? 7、计算每列的总和 ?...由于Pandas中没有“Vlookup”函数,因此Merge用与SQL相同的备用函数。

    8.4K30

    数据分析工具Pandas1.什么是Pandas?2.Pandas的数据结构SeriesDataFrame3.Pandas的索引操作索引对象IndexSeries索引DataFrame索引高级索引:标签

    Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。...的数据结构 import pandas as pd Pandas有两个最主要也是最重要的数据结构: Series 和 DataFrame Series Series是一种类似于一维数组的 对象...DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同类型的值。...:标签、位置和混合 Pandas的高级索引有3种 1. loc 标签索引 DataFrame 不能直接切片,可以通过loc来做切片 loc是基于标签名的索引,也就是我们自定义的索引名 示例代码...2 NaN NaN NaN 填充未对齐的数据进行运算 1. fill_value 使用add, sub, div, mul的同时, 通过fill_value指定填充值,未对齐的数据将和填充值做运算

    3.9K20

    Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量)

    Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量) ---- 目录 Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量) 前言...环境 基础函数的使用 DataFrame记录每个值出现的次数 重复值的数量 重复值 打印重复的值 总结 ---- 前言         这个女娃娃是否有一种初恋的感觉呢,但是她很明显不是一个真正意义存在的图片...,可以在很多AI大佬的文章中发现都有这个Pandas文章,每个人的写法都不同,但是都是适合自己理解的方案,我是用于教学的,故而我相信我的文章更适合新晋的程序员们学习,期望能节约大家的事件从而更好的将精力放到真正去实现某种功能上去...版本:1.4.4 基础函数的使用 Pandas数据处理——渐进式学习1、Pandas入门基础 Pandas数据处理——渐进式学习、DataFrame(函数检索-请使用Ctrl+F搜索) ---- DataFrame...重复值的数量 import pandas as pd import numpy as np df = pd.DataFrame( {'name': ['张丽华', '李诗诗', '王语嫣

    2.4K30

    解决pandas.core.frame.DataFrame格式数据与numpy.ndarray格式数据不一致导致无法运算问题

    问题描述在pandas的DataFrame格式数据中,每一列可以是不同的数据类型,如数值型、字符串型、日期型等。而ndarray格式数据需要每个元素都是相同类型的,通常为数值型。...通过将DataFrame的某一列转换为ndarray,并使用pd.Series()将其转换为pandas的Series数据格式,可以避免格式不一致的错误。...# 进行运算sales_total = quantity_values * unit_price_values# 将运算结果添加到DataFrame中df['Sales Total'] = sales_total...然后,我们可以直接对这两个ndarray进行运算,得到每个产品的销售总额。最后,将运算结果添加到DataFrame中的​​Sales Total​​列。...**sum()**:计算数组元素的总和。例如​​a.sum()​​可以计算数组​​a​​中元素的总和。ndrray的索引和切片ndarray支持基于索引和切片的灵活数据访问和操作。

    53320

    Pandas库

    数据结构 Pandas的核心数据结构有两类: Series:一维标签数组,类似于NumPy的一维数组,但支持通过索引标签的方式获取数据,并具有自动索引功能。...它擅长处理一维带标签的数据,并且具有高效的索引和向量化操作能力。 在单列数据的操作上,Series通常比DataFrame更高效,因为它是为单列数据设计的。...DataFrame: DataFrame是Pandas的主要数据结构,用于执行数据清洗和数据操作任务。 它是一个二维表格结构,可以包含多列数据,并且每列可以有不同的数据类型。...DataFrame提供了灵活的索引、列操作以及多维数据组织能力,适合处理复杂的表格数据。 在处理多列数据时,DataFrame比Series更加灵活和强大。...Pandas允许通过多种方式(如基于索引、列名等)来合并多个DataFrame,从而实现数据的整合。

    8410

    Python 金融编程第二版(二)

    ② 将数据定义为list对象。 ③ 指定列标签。 ④ 指定索引值/标签。 ⑤ 显示DataFrame对象的数据以及列和索引标签。...③ 选择与索引c对应的值。 ④ 选择与索引a和d对应的两个值。 ⑤ 通过索引位置选择第二行和第三行。 ⑥ 计算单列的总和。 ⑦ 使用apply()方法以向量化方式计算平方。...对象(如前所示),但通常使用ndarray对象是一个很好的选择,因为pandas将保留基本结构,并且“只”会添加元信息(例如,索引值)。...NumPy 通用函数 通常情况下,您可以将NumPy通用函数应用于pandas的DataFrame对象,只要它们可以应用于包含相同类型数据的ndarray对象。...② 右连接与颠倒 DataFrame 对象的顺序相同。 ③ 内连接仅保留那些在两个索引中都找到的索引值。 ④ 外连接保留来自两个索引的所有索引值。 也可以基于空的 DataFrame 对象进行连接。

    20110

    Python之Pandas中Series、DataFrame实践

    2. pandas的数据结构DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值的)。...dataframe中的数据是以一个或者多个二位块存放的(而不是列表、字典或者别的一维数据结构)。 3.索引对象 pandas的索引对象负责管理轴标签和其他元素(比如轴名称等)。...4. pandas的主要Index对象 Index 最泛化的Index对象,将轴标签表示为一个由Python对象组成的NumPy数组 Int64Index 针对整数的特殊Index MultiIndex...汇总和计算描述统计 8.1 相关系数corr与协方差cov 8.2 成员资格isin,用于判断矢量化集合的成员资格,可用于选取Series或DataFrame列数据的子集。 9....层次化索引 层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它是你能以低维度形式处理高维度数据。

    3.9K50

    Pandas知识点-添加操作append

    在Pandas中,append()方法用于将一个或多个DataFrame或Series添加到DataFrame中。append()方法也可以用于合并操作,本文介绍append()方法的用法。...append(other): 将一个或多个DataFrame添加到调用append()的DataFrame中,实现合并的功能,other参数传入被合并的DataFrame,如果需要添加多个DataFrame...将verify_integrity修改为True,如果添加的DataFrame中有相同的行索引,会抛出ValueError。...联合操作是将一个DataFrame中的部分数据用另一个DataFrame中的数据替换或补充,通过一个函数来定义联合时取数据的规则。在联合过程中还可以对空值进行填充。...append(): 添加操作,可以将多个DataFrame添加到一个DataFrame中,按行的方式进行添加。添加操作只是将多个DataFrame按行拼接到一起,可以重设行索引。

    4.9K30

    高效的10个Pandas函数,你都用过吗?

    中最主要的数据分析库之一,它提供了非常多的函数、方法,可以高效地处理并分析数据。...Query Query是pandas的过滤查询函数,使用布尔表达式来查询DataFrame的列,就是说按照列的规则进行过滤操作。...Insert Insert用于在DataFrame的指定位置中插入新的数据列。默认情况下新列是添加到末尾的,但可以更改位置参数,将新列添加到任何位置。...用法: DataFrame.loc[] 或者 DataFrame.iloc[] loc:按标签(column和index)选择行和列 iloc:按索引位置选择行和列 选择df第1~3行、第1~2列的数据...) 参数作用: frame:它是指DataFrame id_vars [元组, 列表或ndarray, 可选]:不需要被转换的列名,引用用作标识符变量的列 value_vars [元组, 列表或ndarray

    4.2K20

    详细学习 pandas 和 xlrd:从零开始

    DataFrame 是 pandas 中的核心数据结构之一,它是一个二维的表格,类似于 Excel 表格。每个 DataFrame 都有行索引和列标签。...pd.DataFrame(data):pandas 提供的 DataFrame 构造函数,用于将字典转换为 DataFrame。...Series 是 pandas 中的一维数据结构,类似于 Excel 中的一列。每个 Series 都有一个索引和一组数据。...这在处理多个来源的数据时尤其有用。 7.2 代码示例:读取并合并多个 Excel 文件 假设你有多个 Excel 文件,它们有相同的结构,现在我们需要将这些文件合并到一个 DataFrame 中。...pd.concat(df_list, ignore_index=True):将所有读取的 DataFrame 合并为一个大的 DataFrame,ignore_index=True 表示忽略原来的行索引

    19410

    直观地解释和可视化每个复杂的DataFrame操作

    初始DataFrame中将成为索引的列,并且这些列显示为唯一值,而这两列的组合将显示为值。这意味着Pivot无法处理重复的值。 ? 旋转名为df 的DataFrame的代码 如下: ?...Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。...堆叠中的参数是其级别。在列表索引中,索引为-1将返回最后一个元素。这与水平相同。级别-1表示将取消堆叠最后一个索引级别(最右边的一个)。...例如,考虑使用pandas.concat([df1,df2])串联的具有相同列名的 两个DataFrame df1 和 df2 : ?...串联是将附加元素附加到现有主体上,而不是添加新信息(就像逐列联接一样)。由于每个索引/行都是一个单独的项目,因此串联将其他项目添加到DataFrame中,这可以看作是行的列表。

    13.3K20

    Pandas库常用方法、函数集合

    :合并多个dataframe,类似sql中的union pivot:按照指定的行列重塑表格 pivot_table:数据透视表,类似excel中的透视表 cut:将一组数据分割成离散的区间,适合将数值进行分类...qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间的频率 join:通过索引合并两个dataframe stack: 将数据框的列“堆叠”为一个层次化的...:对每个分组应用自定义的聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同的结果 rank:计算元素在每个分组中的排名 filter:根据分组的某些属性筛选数据 sum:计算分组的总和...计算分组的累积和、最小值、最大值、累积乘积 数据清洗 dropna: 丢弃包含缺失值的行或列 fillna: 填充或替换缺失值 interpolate: 对缺失值进行插值 duplicated: 标记重复的行...astype: 将一列的数据类型转换为指定类型 sort_values: 对数据框按照指定列进行排序 rename: 对列或行进行重命名 drop: 删除指定的列或行 数据可视化 pandas.DataFrame.plot.area

    31510

    【Python篇】详细学习 pandas 和 xlrd:从零开始

    DataFrame 是 pandas 中的核心数据结构之一,它是一个二维的表格,类似于 Excel 表格。每个 DataFrame 都有行索引和列标签。...pd.DataFrame(data):pandas 提供的 DataFrame 构造函数,用于将字典转换为 DataFrame。...Series 是 pandas 中的一维数据结构,类似于 Excel 中的一列。每个 Series 都有一个索引和一组数据。...这在处理多个来源的数据时尤其有用。 7.2 代码示例:读取并合并多个 Excel 文件 假设你有多个 Excel 文件,它们有相同的结构,现在我们需要将这些文件合并到一个 DataFrame 中。...pd.concat(df_list, ignore_index=True):将所有读取的 DataFrame 合并为一个大的 DataFrame,ignore_index=True 表示忽略原来的行索引

    31410

    groupby函数详解

    计算各列数据总和并作为新列添加到末尾 df['Col_sum'] = df.apply(lambda x: x.sum(), axis=1) 计算指定列下每行数据的总和并作为新列添加到末尾 df_sf...计算各行数据总和并作为新行添加到末尾 df.loc['Row_sum'] = df.apply(lambda x: x.sum()) 计算指定列下各行数据总和并作为新行添加到末尾 MT_fs.loc[...1 groupby()核心用法 (1)根据DataFrame本身的某一列或多列内容进行分组聚合,(a)若按某一列聚合,则新DataFrame将根据某一列的内容分为不同的维度进行拆解,同时将同一维度的再进行聚合...,(b)若按某多列聚合,则新DataFrame将是多列之间维度的笛卡尔积,即:新DataFrame具有一个层次化索引(由唯一的键对组成),例如:“key1”列,有a和b两个维度,而“key2”有one和...本身的某一列或多列内容进行分组聚合 #创建原始数据集 import pandas as pd import numpy as np df=pd.DataFrame({ 'key1':['a',

    3.8K11

    Python 数据处理:Pandas库的使用

    和 Series 之间的运算 2.9 函数应用和映射 2.10 排序和排名 2.11 带有重复标签的轴索引 3.汇总和计算描述统计 3.1 相关系数与协方差 3.2 唯一值、值计数以及成员资格 ---...'b', 'c', 'a']) print(obj2 > 0) print(obj2[obj2 > 0]) print(obj2 * 10) 还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射...拥有原DataFrame相同的索引,且其name属性也已经被相应地设置好了。...'dense' 类似于'min'方法,但是排名总是在组间增加1,而不是组中相同的元素数 ---- 2.11 带有重复标签的轴索引 直到目前为止,所介绍的所有范例都有着唯一的轴标签(索引值)。...(整数) idxmin、idxmax 计算能够获取到最小值和最大值的索引值 quantile 计算样本的分位数(0到1) sum 值的总和 mean 值的平均数 median 值的算术中位数(50%分位数

    22.8K10

    Pandas图鉴(四):MultiIndex

    Pandas有很多方法可以用大括号来访问DataFrame的元素,但都不够方便,所以这里推荐采用另一种索引语法: .query方法的小型语言(它是唯一能够做'or'的方法,而不仅仅是'and'): df.query...,因为它是不可变的)。...split_level(obj, sep='_', names=None)将索引分割成一个多索引。 两者都有可选的 axis 和 inplace 参数。...将多索引DataFrame读入和写入磁盘 Pandas可以以完全自动化的方式将一个带有MultiIndex的DataFrame写入CSV文件:df.to_csv('df.csv')。...官方Pandas文档有一个表格[4],列出了所有~20种支持的格式。 多指标算术 在整体使用多索引DataFrame的操作中,适用与普通DataFrame相同的规则(见第三部分)。

    62120

    Python数据分析作业二:Pandas库的使用

    其中,Series 和 DataFrame 是 Pandas 中最常用的两个对象,分别对应于一维和二维数据的处理(Pandas 还有对三维甚至多维数据处理的 Panel 对象,但不太常用)。...然后,它从这些行中的 “交易额” 列中提取数值,并使用.sum()方法计算这些值的总和。...然后,使用.round(2)方法将平均值保留两位小数。最后,将结果存储在新的 Series 对象dff中。dff是一个包含每个姓名对应的平均交易额的 Series,其中索引是姓名,值是平均交易额。...最后,使用groupby方法将合并后的 DataFrame 按照 “姓名” 和 “职级” 进行分组,并计算每个组中 “交易额” 列的总和。...结果是一个包含姓名、职级和对应交易额总和的 Series,其中索引是多级索引,包括 “姓名” 和 “职级”,值是交易额的总和。

    10200
    领券