Numpy简介
NumPy是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。Numeric,即 NumPy 的前身,是由 Jim Hugunin 开发的。 也开发了另一个包 Numarray ,它拥有一些额外的功能。 2005年,Travis Oliphant 通过将 Numarray 的功能集成到 Numeric 包中来创建 NumPy 包。 这个开源项目有很多贡献者。
Numpy基础
NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank)。
例如,在3D空间一个点的坐标[1, 2, 3]是一个秩为1的数组,因为它只有一个轴。那个轴长度为3.又例如,在以下例子中,数组的秩为2(它有两个维度).第一个维度长度为2,第二个维度长度为3.
NumPy的数组类被称作ndarray。通常被称作数组。注意numpy.array和标准Python库类array.array并不相同,后者只处理一维数组和提供少量功能。更多重要ndarray对象属性有:
ndarray.ndim: 数组轴的个数,在python的世界中,轴的个数被称作秩
ndarray.shape:
数组的维度。这是一个指示数组在每个维度上大小的整数元组。例如一个n排m列的矩阵,它的shape属性将是(2,3),这个元组的长度显然是秩,即维度或者ndim属性
ndarray.size 数组元素的总个数,等于shape属性中元组元素的乘积。
ndarray.dtype 一个用来描述数组中元素类型的对象,可以通过创造或指定dtype使用标准Python类型。另外NumPy提供它自己的数据类型。
ndarray.itemsize 数组中每个元素的字节大小。例如,一个元素类型为float64的数组itemsiz属性值为8(=64/8),又如,一个元素类型为complex32的数组item属性为4(=32/8).
ndarray.data 包含实际数组元素的缓冲区,通常我们不需要使用这个属性,因为我们总是通过索引来使用数组中的元素。
例如:
创建数组
有好几种创建数组的方法。例如,你可以使用函数从常规的Python列表和元组创造数组。所创建的数组类型由原序列中的元素类型推导而来。
数组将序列包含序列转化成二维的数组,序列包含序列包含序列转化成三维数组等等。
数组类型可以在创建时显示指定
通常,数组的元素开始都是未知的,但是它的大小已知。因此,NumPy提供了一些使用占位符创建数组的函数。这最小化了扩展数组的需要和高昂的运算代价。
函数创建一个全是0的数组,函数创建一个全1的数组,函数创建一个内容随机并且依赖与内存状态的数组。默认创建的数组类型(dtype)都是float64。
为了创建一个数列,NumPy提供一个类似arange的函数返回数组而不是列表:
当使用浮点数参数时,由于有限的浮点数精度,通常无法预测获得的元素个数。因此,最好使用函数去接收我们想要的元素个数来代替用range来指定步长。
打印数组
当你打印一个数组,NumPy以类似嵌套列表的形式显示它,但是呈以下布局:
最后的轴从左到右打印次后的轴从顶向下打印剩下的轴从顶向下打印,每个切片通过一个空行与下一个隔开
一维数组被打印成行,二维数组成矩阵,三维数组成矩阵列表。
如果一个数组用来打印太大了,NumPy自动省略中间部分而只打印角落
禁用NumPy的这种行为并强制打印整个数组,你可以设置参数来更改打印选项。
基本运算
数组的算术运算是按元素的。新的数组被创建并且被结果填充。
不像许多矩阵语言,NumPy中的乘法运算符*指示按元素计算,矩阵乘法可以使用dot函数或创建矩阵对象实现
有些操作符像和被用来更改已存在数组而不创建一个新的数组。
当运算的是不同类型的数组时,结果数组和更普遍和精确的已知(这种行为叫做upcast)。
这些运算默认应用到数组好像它就是一个数字组成的列表,无关数组的形状。然而,指定参数你可以吧运算应用到数组指定的轴上:
通用函数(ufunc)
NumPy提供常见的数学函数如,和。在NumPy中,这些叫作“通用函数”(ufunc)。在NumPy里这些函数作用按数组的元素运算,产生一个数组作为输出.
索引,切片和迭代
一维数组可以被索引、切片和迭代,就像列表和其它Python序列。
多维数组可以每个轴有一个索引。这些索引由一个逗号分割的元组给出。
当少于轴数的索引被提供时,确失的索引被认为是整个切片:
中括号中的表达式被当作i和一系列:,来代表剩下的轴。NumPy也允许你使用“点”像。
点(…)代表许多产生一个完整的索引元组必要的分号。如果x是秩为5的数组(即它有5个轴),那么:
x[1,2,…] 等同于 x[1,2,:,:,:],x[…,3] 等同于 x[:,:,:,:,3]x[4,…,5,:] 等同 x[4,:,:,5,:].
迭代多维数组是就第一个轴而言的:
然而,如果一个人想对每个数组中元素进行运算,我们可以使用flat属性,该属性是数组元素的一个迭代器:
形状操作
更改数组的形状一个数组的形状由它每个轴上的元素个数给出:
一个数组的形状可以被多种命令修改:
由展平的数组元素的顺序通常是“C风格”的,就是说,最右边的索引变化得最快,所以元素a[0,0]之后是a[0,1]。如果数组被改变形状(reshape)成其它形状,数组仍然是“C风格”的。NumPy通常创建一个以这个顺序保存数据的数组,所以将总是不需要复制它的参数3。但是如果数组是通过切片其它数组或有不同寻常的选项时,它可能需要被复制。函数和还可以被同过一些可选参数构建成FORTRAN风格的数组,即最左边的索引变化最快。函数改变参数形状并返回它,而resize函数改变数组自身。
如果在改变形状操作中一个维度被给做-1,其维度将自动被计算
组合(stack)不同的数组
几种方法可以沿不同轴将数组堆叠在一起:
函数以列将一维数组合成二维数组,它等同与对一维数组。
函数,另一方面,将一维数组以行组合成二维数组。
对那些维度比二维更高的数组,沿着第二个轴组合,沿着第一个轴组合,允许可选参数给出组合时沿着的轴。在复杂情况下,和对创建沿着一个方向组合的数很有用,它们允许范围符号(“:”):
当使用数组作为参数时,r和c的默认行为和vstack和hstack很像,但是允许可选的参数给出组合所沿着的轴的代号。
将一个数组分割(split)成几个小数组
使用你能将数组沿着它的水平轴分割,或者指定返回相同形状数组的个数,或者指定在哪些列后发生分割:
沿着纵向的轴分割,允许指定沿哪个轴分割。
复制和视图当运算和处理数组时,它们的数据有时被拷贝到新的数组有时不是。这通常是新手的困惑之源。这有三种情况:完全不拷贝简单的赋值不拷贝数组对象或它们的数据。
Python 传递不定对象作为参考,所以函数调用不拷贝数组。
视图(view)和浅复制
不同的数组对象分享同一个数据。视图方法创造一个新的数组对象指向同一数据。
切片数组返回它的一个视图:
深复制
这个复制方法完全复制数组和它的数据。
函数和方法(method)总览
创建数组
转化
操作
询问
排序
运算
基本统计
基本线性代数
进阶
广播法则(rule)
广播法则能使通用函数有意义地处理不具有相同形状的输入。
广播第一法则是,如果所有的输入数组维度不都相同,一个“1”将被重复地添加在维度较小的数组上直至所有的数组拥有一样的维度。
广播第二法则确定长度为1的数组沿着特殊的方向表现地好像它有沿着那个方向最大形状的大小。对数组来说,沿着那个维度的数组元素的值理应相同。
应用广播法则之后,所有数组的大小必须匹配。更多细节可以从这个文档找到。
花哨的索引和索引技巧
NumPy比普通Python序列提供更多的索引功能。除了索引整数和切片,正如我们之前看到的,数组可以被整数数组和布尔数组索引。
通过数组索引
当被索引数组a是多维的时,每一个唯一的索引数列指向a的第一维。以下示例通过将图片标签用调色版转换成色彩图像展示了这种行为。
我们也可以给出不不止一维的索引,每一维的索引数组必须有相同的形状。
自然,我们可以把i和j放到序列中(比如说列表)然后通过list索引。
然而,我们不能把i和j放在一个数组中,因为这个数组将被解释成索引a的第一维。
另一个常用的数组索引用法是搜索时间序列最大值。
你也可以使用数组索引作为目标来赋值:
然而,当一个索引列表包含重复时,赋值被多次完成,保留最后的值:
这足够合理,但是小心如果你想用Python的+=结构,可能结果并非你所期望:
即使0在索引列表中出现两次,索引为0的元素仅仅增加一次。这是因为Python要求a+=1和a=a+1等同。
通过布尔数组索引
当我们使用整数数组索引数组时,我们提供一个索引列表去选择。通过布尔数组索引的方法是不同的我们显式地选择数组中我们想要和不想要的元素。
我们能想到的使用布尔数组的索引最自然方式就是使用和原数组一样形状的布尔数组。
这个属性在赋值时非常有用:
第二种通过布尔来索引的方法更近似于整数索引;对数组的每个维度我们给一个一维布尔数组来选择我们想要的切片。
注意一维数组的长度必须和你想要切片的维度或轴的长度一致,在之前的例子中,b1是一个秩为1长度为三的数组(a的行数),b2(长度为4)与a的第二秩(列)相一致.
ix_()函数
函数可以为了获得多元组的结果而用来结合不同向量。例如,如果你想要用所有向量a、b和c元素组成的三元组来计算:
你也可以实行如下简化:
然后这样使用它:
这个reduce与ufunc.reduce(比如说add.reduce)相比的优势在于它利用了广播法则,避免了创建一个输出大小乘以向量个数的参数数组。
线性代数
简单数组运算
矩阵类
这是一个关于矩阵类的简短介绍。
索引:比较矩阵和二维数组
注意NumPy中数组和矩阵有些重要的区别。NumPy提供了两个基本的对象:一个N维数组对象和一个通用函数对象。其它对象都是建构在它们之上 的。特别的,矩阵是继承自NumPy数组对象的二维数组对象。对数组和矩阵,索引都必须包含合适的一个或多个这些组合:整数标量、省略号 (ellipses)、整数列表;布尔值,整数或布尔值构成的元组,和一个一维整数或布尔值数组。矩阵可以被用作矩阵的索引,但是通常需要数组、列表或者 其它形式来完成这个任务。
像平常在Python中一样,索引是从0开始的。传统上我们用矩形的行和列表示一个二维数组或矩阵,其中沿着0轴的方向被穿过的称作行,沿着1轴的方向被穿过的是列。
让我们创建数组和矩阵用来切片
现在,让我们简单的切几片。基本的切片使用切片对象或整数。例如,和的求值将表现得和Python索引很相似。然而要注意很重要的一点就是NumPy切片数组不创建数据的副本;切片提供统一数据的视图。
现在有些和Python索引不同的了:你可以同时使用逗号分割索引来沿着多个轴索引。
注意最后两个结果的不同。对二维数组使用一个冒号产生一个一维数组,然而矩阵产生了一个二维矩阵。10例如,一个M[2,:]切片产生了一个形状为(1,4)的矩阵,相比之下,一个数组的切片总是产生一个最低可能维度11的数组。例如,如果C是一个三维数组,C[...,1]产生一个二维的数组而C[1,:,1]产生一个一维数组。从这时开始,如果相应的矩阵切片结果是相同的话,我们将只展示数组切片的结果。
假如我们想要一个数组的第一列和第三列,一种方法是使用列表切片
稍微复杂点的方法是使用方法(method):
如果我们想跳过第一行,我们可以这样:
或者我们仅仅使用。还有一种方法是通过矩阵向量积(叉积)。
为了读者的方便,在次写下之前的矩阵:
现在让我们做些更复杂的。比如说我们想要保留第一行大于1的列。一种方法是创建布尔索引:
就是我们想要的!但是索引矩阵没这么方便。
这个过程的问题是用“矩阵切片”来切片产生一个矩阵,但是矩阵有个方便的A属性,它的值是数组呈现的。所以我们仅仅做以下替代:
如果我们想要在矩阵两个方向有条件地切片,我们必须稍微调整策略,代之以:
我们需要使用向量积:
技巧和提示
下面我们给出简短和有用的提示。
“自动”改变形状
更改数组的维度,你可以省略一个尺寸,它将被自动推导出来。
向量组合(stacking)
我们如何用两个相同尺寸的行向量列表构建一个二维数组?在MATLAB中这非常简单:如果x和y是两个相同长度的向量,你仅仅需要做。在NumPy中这个过程通过函数、、和来完成,取决于你想要在那个维度上组合。例如:
直方图(histogram)
NumPy中histogram函数应用到一个数组返回一对变量:直方图数组和箱式向量。注意:matplotlib也有一个用来建立直方图的函数(叫作hist,正如matlab中一样)与NumPy中的不同。主要的差别是pylab.hist自动绘制直方图,而numpy.histogram仅仅产生数据。
领取专属 10元无门槛券
私享最新 技术干货