七月在线机器学习笔记——1

文章来源：企鹅号 - 一本格

6.23晚，第一课。

整体概念

监督学习——有标签，又分为：分类，回归

无监督学习——没标签，在电商应用比较多

强化学习——有标签，但是Y的反馈延迟，比如围棋，滴滴派单

数据驱动 = 数据 +模型

模型 = 假设函数 + 优化

优化 =损失函数 + 优化算法

线性回归

模型 h(x)=系数转置 * x ，系数和x都是列向量

损失函数 = （每一样本预测值-实际值）的平方和，除以（2*样本数）

注意点：是样本数m，不是系数n。2是为了求导运算方便，没有实际含义。

优化算法，用梯度下降算法，梯度下降中有步长，是一个超参数。

需要加上正则项，以防止过拟合，L2正则化之后，是全部的惩罚函数。

逻辑回归：把正无穷到负无穷的范围转化到（0,1），需要用到sigmoid函数。常用的一种g(z)，它的数学特性，g(z)导数=g(z)*（1-g(z)）

线性回归——拟合曲线——决策边界

因为数学特性的关系，要方便找到全局最优，所以我们需要重新定义一个新的损失函数

cost(h(x),y)=-logh(x) y=1

cost(h(x),y)=-log(1-h(x)) y=0

h(x)是预测出来的概率，y=1，p越大越好，所以损失函数加符号，y=0，同理。

加Log是因为，每个p连乘，都是小于1的，可能会溢出，所以加Log变成连加。

多分类问题的解决思路：

one vs one 4种东西就要做6个分类器

one vs rest 4种东西就要做4个分类器

LR应用经验：

可解释性强，训练快，添加特征简单，输出概率可以排序。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货