课程简介
回归学习算法和分类学习算法都属于监督学习,两者的区别在于输出变量的类型,回归是定量输出(或者说是连续变量预测),分类是定性输出(或者说是离散变量预测)。回归学习算法应用十分广泛,比如预测房价、未来的天气情况等。本节将介绍如何用回归学习算法来预测一个连续值,以及如何进行评估等。
学习目标
了解回归学习算法的工作原理
了解线性回归与k近邻回归
了解回归与分类的区别
在回归中,我们尝试预测一个连续的输出变量 -- 与之前分类例子中所预测的定类变量相反。
以具有一个特征维度(解释变量)和一个目标变量的简单案例开始。我们先创建一个带有一些噪音的正弦曲线的数据集:
1.线性回归
将要介绍的第一个模型就是所谓的简单线性回归模型。在这里,我们想要通过这些数据来拟合出一条直线,这是因为:
最简单的模型之一就是线性模型,它只是简单地试图预测这些数据为一条线。找到这样的一条线的一种方法是线性回归 (也称为[普通最小二乘法(OLS)]回归(https://en.wikipedia.org/wiki/Ordinary_least_squares)。 线性回归的接口和之前的分类器完全一样,只是这个 y 现在包含浮点值,而不是类别。
正如我们知道的,scikit-learn 的 API 需要我们提供一维数组形式的目标变量(y);希望样本(X)表示成一个二维数组 -- 即使它可能只包含1个特征。因此,我们将一维 x NumPy数组转换为一个具有2个轴的 X 数组:
领取专属 10元无门槛券
私享最新 技术干货