机器学习学习笔记(3) --SparkMLlib部分算法解析

挽风

发布于 2021-04-13 14:33:19

7040

文章被收录于专栏：小道小道

1、线性回归(有监督值预测算法模型)

由点与点之间的关系反推出函数表达式的过程就是回归，回归在机器学习中解决的问题就是值预测问题；确定一条最好的直线来拟合所有的点，假设直线是y=W0+W1X，确定直线就是确定W0和W1的值；

一元线性回归公式：

Θ₀:截距 Θ₁：权重 x:特征|维度 h₀(X):预测的值

二元线性回归公式：

n元线性回归公式：

即：

线性回归预测的目的就是求使所有的点到这条线的误差最小的函数表达式；

线性回归误差公式：

根据极大似然估计法可得知，当误差最小，即y发生的概率最大，需要求得y最大值时的误差值ε，下面是标准正态分布函数图：

误差推倒公式：

误差最小化：要求参数的最优解，使得所有点到这条线的误差最小，如果将y表示样本的真实值，h(x₀)表示样本的预测值，那么可得损失函数：

误差优化方法有最小二乘法和梯度下降法；

通过求导的方式可以确定Θ值，由于Θ是一组值，无法确定其中的Θ₀和Θ₁的值，即正向求导无法求得答案，则可以使用梯度下降的方法求Θ₀和Θ₁的值，梯度下降法又分为随机梯度下降法和批量梯度下降法；在训练线性回归模型时需要指定一个误差值J(Θ)，梯度下降法调节Θ₀和Θ₁的值时还要指定步长和学习率。下面是线性回归模型的训练流程图解：

梯度下降停止的条件：

	Ⅰ、当计算得到的误差值小于指定的误差值
	Ⅱ、当迭代到指定次数

训练数据集一般分为两部分：

	Ⅰ、训练集
	Ⅱ、测试集
	一般训练集和测试集8|2分。

训练模型过程中的过拟合和欠拟合问题：

	过拟合即模型在训练集中表现优异，但是在测试集中表现极差，当训练集非常少，特征非常多时容易出现过拟合；
	欠拟合即训练集和测试集表现都不好。

2、贝叶斯(有监督的基于概率的分类算法模型) 机器学习算法中，有种依据概率原则进行分类的朴素贝叶斯算法，正如气象学家预测天气一样，朴素贝叶斯算法就是应用先前事件的有关数据来估计未来某个事件发生的概率；下面是基于贝叶斯定理的条件概率公式：

P(A) 称为先验概率(已知) P(B)称为标准化常量(已知) P(B|A)称为似然度(已知) P(A|B)称为后验概率(未知) 如何理解朴素贝叶斯算法？下面将从如何通过该算法进行垃圾分类进行分析：

P(spam) 所有邮件中是垃圾邮件的概率 P(Viagra|Spam) 是垃圾邮件且含有Viagra的概率 P(Viagra) 所有邮件内含有Viagra的概率 P(spam|Viagra) 含有Viagra且是垃圾邮件的概率计算贝叶斯定理中每一个组成部分的概率，我们必须构造一个频率表：

由表可以计算 P(spam|Viagra) = P(Viagra|Spam)P(spam) / P(Viagra) = （4/20） (20/100) / (5/100) = 0.8,所以可以得知电子邮件中含有单词Viagra，那么该邮件是垃圾邮件的概率为80%,所以含有Viagra的消息都需要被过滤掉。当有更多额外特征时：

可以得到概率如下：

拉普拉斯估计：

3、KNN最邻近算法(有监督的分类算法) 该算法的思路是：如果一个样本空间中的K个最相似的样本中大多数属于某个类别，则该样本也属于这个类别。KNN算法由邻居推断类别，就是距离衡量样本之间的相似度。

距离的度量常用的有欧式距离(两点之间的距离)、曼哈顿距离(出租车距离)、余弦夹角(余弦角度)等，一般使用欧式距离，对于文本分类问题则常用余弦距离； 该算法的三个基本要素是：K值的选择、距离度量和分类决策规则； 该算法在分类时有个不足是当样本数量不平衡时，如果一个类别的样本数量很大，而其它类别的样本数量很小时，有可能导致当输入一个新的样本时该样本的K个邻居中类别数量较多的样本占多数，从而导致该结果很大可能性是数量多的类别，解决该问题的方案是给样本给与不同的权重，根据和输入样本距离的远近给近邻进行加权，越近权值越大，权重一般为距离平方的倒数。该算法还有一个不足是当某些值的数值大小特别大时可能会对距离的计算产生影响，为防止某一维度的数据对距离的计算有影响，保证多个维度的特征是等权重的，且最终结果不能被数据的大小影响，则可以将各个维度数据的数值进行归一化，把数据归一化到[0,1]区间内。