... the things of this world cannot be made known without mathematics.
——Roger Bacon(1220-1292)
我们知道,机器学习研究的主要内容是关于在计算机上从数据中产生「模型」的算法,即「学习算法」。如果说计算机科学是研究关于算法的学问,那么机器学习是研究关于学习算法的学问。
有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型,有了模型,就可以在面对新情况时进行判断和预测。简单的说,若欲预测的是离散值,此类学习任务称为「分类」;若欲预测的是连续值,此类学习任务称为「回归」。另外,我们若将输出看成连续时,我们其实暗示了它有一定的次序,如果有很多不同的结果而且他们有着线性的次序,并且可以比较大小,我们应该选择当成连续问题去考虑;如果按编号出现而没有次序,应该按离散问题处理。
线性模型形式简单、易于建模,蕴含着机器学习中一些重要的基本思想,线性模型可通过引入层级结构或高维映射而演变成其他功能更为强大的非线性模型。
我们知道「线性代数」中,包含n个未知数的一个线性方程形如下面的样子:
由一个或几个包含相同变量的线性方程组成「线程方程组」,而线性方程组的重要性质都可用「向量」概念来描述。给定集合(由n个实数数列组成)中的向量W1,W2,...,Wp,和标量X1,X2,...,Xp,向量y=W1X1+W2X2+...+WpXp称为向量W1,W2,...,Wp以X1,X2,...,Xp为权的「线性组合」。
在机器学习中,上面的p个标量可以看做p个属性,线性回归就是试图学得一个通过属性的线性组合来进行预测的函数,即:
一般用向量形式写成:
其中w和b学得之后,模型就得以确定。
如何确定w和b呢?显然,关键在于如何衡量预测值f(x)与实际y值之间的差别,而「均方误差」是回归任务中最常用的性能度量,基于均方差最小化来进行模型求解的方法称为「最小二乘法」。均方误差在几何上被称为「欧几里得距离」,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧几里得距离之和最小。
均方误差可如下表示:
求均方误差最小的问题就转变为了求极值的问题。我们可以将E分别对w和b求导,得到:
另以上两式为零即可得到w和b的最优解。
领取专属 10元无门槛券
私享最新 技术干货