一、模型表示
上次我们讲到监督学习中,有个预测房价的例子,在这个例子中,我们知道一个房子的面积,要这个房子的预测价格。从机器学习的角度说,就是需要我们建立一个模型,模型的输入是房子面积,输出是房子价格。那么这个模型到底是个什么东西呢?
在这个例子中简单的来说,这个模型是一条能够体现数据分布的直线或曲线,有了这个模型,我们就可以轻松的找到房子面积对应的房子价格,最终给出预测结果。
现在,我们用更严谨的方式表示这个模型。
我们将这个问题表示成以下几个数学符号:
m代表训练集中实例的数量
x代表特征(输入)变量
y代表目标(输出)变量
(x,y)代表训练集中的实例
(x(i),y(i))代表第i个观察实例
h代表学习算法的解决方案或函数,也称为假设(hypothesis)
在这个问题中,我们的特征也就是输入变量只有x(房屋面积),因此,我们学习算法的解决方案或函数为:h(x)=θ0+xθ1。
这个模型预测的结果是否准确,取决于参数(parameters)θ0和θ1,那么在预测过程中,预测值难免与真实值会有一定误差,我们叫做建模误差(modeling error)。
我们建模的最终目标就是使得这个误差达到最小化,那么如何评判这个误差呢,那就是代价函数(Cost Function)。
二、代价函数
在一般的回归问题中,代价函数一般采用均方误差(Mean Square Error,MSE)函数,它表示为:
那么,我们的假设函数h(x)=θ0+xθ1和代价函数之间有什么联系呢?
在假设函数中,有两个参数θ0和θ1我们是未知的,而这两个参数恰恰决定了模型预测的准确度,也就是说,代价函数是和这两个参数有直接关系的,我们将代价函数、θ0和θ1绘制在一个三维等高线图中。
很明显,我们可以看到,在三维空间中,存在着一个J(θ0,θ1)的最小值点。找到θ0和θ1使J(θ0,θ1)最小就变成了整个模型的最终问题,如何找到这样的参数,在后面的学习中会更详细的解答。
当然,上述的均方误差MSE只是众多代价函数中的一个,还有许多代价函数的计算方法,在之后的学习中,我会再把链接贴出来。
· END ·
一个有理想、有热血的吉吉