在Andrew Ng的>课程中,多次强调了使用向量化的形式进行编码,在深度学习课程中,甚至给出了编程原则:尽可能避免使用for循环而采用向量化形式。该课程采用的是matlab/octave语言,所擅长的方向正是数值计算,语言本身内置了对矩阵/向量的支持,比如:
如果变量x是一个数值,那么a也会得到一个数值结果,如果x是一个矩阵,那么结果a也是一个矩阵。
但是对于机器学习领域广为使用的python语言而言,并没有内置这样的功能,毕竟python是一门通用语言。好消息是,借助一些第三方库,我们也可以很容易的处理向量数值运算。
Numpy是Numerical Python的缩写,是Python生态系统中高性能科学计算和数据分析所需的基础软件包。 它是几乎所有高级工具(如Pandas和scikit-learn)的基础。TensorFlow使用NumPy数组作为基础构建模块,在这些模块的基础上,他们为深度学习任务(大量进行长列表/向量/数值矩阵的线性代数运算)构建了张量对象和图形流。
许多Numpy运算都是用C实现的,相比Python中的循环,速度上有明显优势。所以采用向量化编程,而不是普通的Python循环,最大的优点是提升性能。另外相比Python循环嵌套,采用向量化的代码显得更加简洁。
下面就用一些简单的示例进行说明:
在我的电脑上运行结果如下:
可见,向量化的实现代码速度上有飞速提升,而且代码也看起来更简洁。
总之,无论你有多长的数据列表并需要对它们进行数学转换,都强烈考虑将这些Python数据结构(列表或元组或字典)转换为numpy.ndarray对象并使用固有的矢量化功能。
领取专属 10元无门槛券
私享最新 技术干货