作者|Nature
出品|AI机器思维
练上一万个小时每个人都会成为专家——重复是学习之母!
Pandas是python中一个强大的数据分析和处理模块工具,通过此模块能快速、灵活的处理数据,为复杂的数据分析提供基础分析功能。对数据库或Excel表,如包含了多列不同数据类型的数据(如数字、时间、文本)以及矩阵型或二维表等这些原始数据都需要首先处理才能应用分析。
一个好的数据科学家同时也是一个好的数据处理科学家,有效的数据是万事之基,业务数据分析中数据需要经历如下几个阶段的工序如:清洗原始数据、转换与特殊处理数据、分析和建模、组织分析的结果并以图表的形式展示出来,根据数据分析写数据分析报告等。
Pandas模块处理两个重要的数据结构是:DataFrame(数据框)和Series(系列),DataFrame(数据框)就是一个二维表,每列代表一个变量,每行为一次观测,行列交叉的单元格就是对应的值,数据框有行和列的索引,能帮助我们快速地按索引访问数据框的某几行或某几列,可以对行或列操作。可以通过NumPy数组创建数据框。
首先安装pandas包:
案例1:创建一个数据框
说明:v_data变量赋值的是后面的数据,通过df=pd.DataFrame(v_data)构造函数生成数据框并赋值给df,构造函数里有很多参数可以应用,改变列的排列显示顺序等,这些高级参数设置可以根据案例去尝试,做到举一反三的学习,更好的领悟构造函数。对上面程序改造构造函数,添加高级参数设置。
改造后的程序执行结果如下:
程序执行后结果如下:
如果查看某列数据,直接通过print()函数中加入变量名和列名就可以。
执行后结果:
案例2:Series(系列),其实就是一个一维数组,属于同类型的进行多次观测后记录的结果值。它服从某种分布,默认情况下系列的索引是自增的非负整数列。
程序执行后结果如下:
如果我们对上面的系列作向量化操作运算,如开平方根
程序执行后结果如下:
以上是对pandas模块详细的讲解,下面根据案例对外部数据文件处理:
需要安装xrld处理excel文件
案例3:读取E:/test/sale.xcel文件
程序如下:
程序执行后结果通过print()函数查看结果输出到窗口:
案例4:重命名上面的数据文件中的列变量名time改为sale_time
程序执行后查看结果列:
希望大家多看帮助,改造案例去学习,亲自动手运行案例,这样才能有更深刻的体会编程的乐趣,通过实际业务应用,用程序解决业务痛点。