数据分析的基本处理流程一般分为5步骤,分别是明确分析任务、数据收集、数据处理、数据分析、数据展示。在前两步中,我们可以使用python中的numpy数组进行数据收集和处理(也可以使用其他的包,比Pandas)。具体在数据分析中, Numpy数组常用的有以下基本操作。
0. Numpy 简介及使用方法
NumPy 是一个 Python 包,代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库,主要用来进行科学计算,支持高级大量的维度数组与矩阵运算,也针对数组运算提供大量的数学函数库,有矢量运算能力,快速、节省空间。使用方法是直接导入即可,如下图
读取文件
数据分析的第一步是读取文件到内存。Numpy中用到的函数是loadtxt,具体如下:
例子:比如读取一个超市的季度销售报表。第一行一般为列名,比如商品名,销售情况等信息。但是在数据处理的时候不需要,直接使用skiprows跳过即可。具体代码如下
2. 数组的属性
在数据分析中,数组的属性可以用了判断倒入到内存到数据是不是和原来到文件一样,进而可以判断数据是不是被完全倒入。一般使用spyder编译器到debug模式进行查找。
主要用到到属性有以下几种: 例子是一个3维数组
3. 数组的索引
在数据分析中,数组到索引主要是用在数据到处理时候,根据索引可以找到想要到某一个元素或者某一列元素,比如查找 “超市销售列表” 里面的最后一列,进而判断是否是会员的列。具体如下
4. 数组切片
在数据处理过程中国,数组切片是经常被使用到的一个操作。它经常和数组索引结合起来使用,进而获取更确切的某些行或者列。具体如下图代码所说:
5. 数组变形
在数据处理中,数组变形主要是为了方便处理理由数组切片得到的数据。一般数组切片得到的数据是行向量,如果想变为列向量。需要使用数组变形。具体的函数是reshape(x,y) x表示行数 ,y表示列数。
但是记住一点 reshape 形状变化是基于数组元素不能改变的,变成的新形状中所包含的元素个数必须符合原来元素个数。如果数组元素发生变化的时候,就会报错。
这五个基本的数组操作是数据处理中经常使用到的,是不是很容易学。如果有问题,可以关注公众号,并且留言与作者交流吧。
领取专属 10元无门槛券
私享最新 技术干货