5.3 Boosting【**】
1.boosting集成原理
随着学习的积累从弱到强
2.实现过程
1.初始化训练数据权重,初始权重是相等的
2.通过这个学习器,计算错误率
3.计算这个学习期的投票权重
4.对每个样本进行重新赋权
5.重复前面1-4
6.对构建后的最后的学习器进加权投票
3.bagging集成与boosting集成的区别:
数据方面:
bagging:重新采样
boosting:对数据进行权重调整
投票方面:
bagging:平权
boosting:加权
学习顺序方面:
bagging:并行
boosting:串行
主要作用:
bagging:过拟合
boosting:欠拟合
2 GBDT
梯度提升决策树(GBDT Gradient Boosting Decision Tree)
GBDT = 梯度下降 + Boosting + 决策树
3.XGBoost
XGBoost= 二阶泰勒展开+boosting+决策树+正则化
6.聚类算法
6.1 聚类算法简介
1.聚类算法分类
粗聚类
细聚类
2.定义
一种典型的无监督学习算法,
主要用于将相似的样本自动归到一个类别中
计算样本和样本之间的相似性,一般使用欧式距离
6.2 聚类算法api初步使用
1.api
sklearn.cluster.KMeans(n_clusters=8)
参数:
n_clusters:开始的聚类中心数量
6.3 聚类算法实现流程【***】
k-means其实包含两层内容:
k -- 选几个中心店
means -- 均值计算
流程
1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别
3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)
4、如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程
kmeans小结
kmeans由于要计算质心到每一个样本的距离,所以其收敛速度比较慢
6.4 模型评估【**】
0.sse
误差平方和
值越小越好
1. 肘部法
下降率突然变缓时即认为是最佳的k值
2. SC系数
取值为[-1, 1],其值越大越好
3. CH系数
分数s高则聚类效果越好
CH需要达到的目的:
用尽量少的类别聚类尽量多的样本,同时获得较好的聚类效果。
6.5 算法优化【***】
1.k_means
优点:
简单,容易理解
缺点:
特别人容易陷入到局部最优解
2.Canopy
通过绘制同心圆,进行k值选择筛选
需要确定同心圆的半径t1,t2
3.K-means++
距离平方进行求解
保证下一个质心到当前质心,距离最远
4.二分k-means
通过误差平方和,设置阈值,然后进行划分
5.k-medoids
和kmeans选取中心点的方式不同
通过从当前点选择中心点(质心)进行判断
6.kernel kmeans【了解】
映射到高维空间
7.ISODATA【了解】
动态聚类
可以更改k值的大小
8.Mini-batch K-Means【了解】
大数据集分批聚类
6.6 特征降维【***】
1.定义
就是改变特征值,选择哪列保留,哪列删除
目标是得到一组”不相关“的主变量
2.降维的两种方式
特征选择
主成分分析(可以理解一种特征提取的方式)
3.特征选择
定义:提出数据中的冗余变量
方法:
Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联
方差选择法:低方差特征过滤
相关系数
Embedded (嵌入式):算法自动选择特征(特征与目标值之间的关联)
决策树:信息熵、信息增益
正则化:L1、L2
深度学习:卷积等
4.低方差特征过滤
把方差比较小的某一列进行剔除
api:
sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
删除所有低方差特征
注意,参数threshold一定要进行值的指定
5.相关系数
主要实现方式:
皮尔逊相关系数
斯皮尔曼相关系数
5.1 皮尔逊相关系数
通过具体值的大小进行计算
相对复杂
api:
from scipy.stats import pearsonr
返回值,越接近|1|,相关性越强;越接近0,相关性越弱
5.2 斯皮尔曼相关系数
通过等级差进行计算
比上一个简单
api:
from scipy.stats import spearmanr
返回值,越接近|1|,相关性越强;越接近0,相关性越弱
6.pca
定义:
高维数据转换为低维数据,然后产生了新的变量
api:
sklearn.decomposition.PCA(n_components=None)
n_components
整数 -- 表示降低到几维
小数 -- 保留百分之多少的信息
6.7 案例:探究用户对物品类别的喜好【***】
1.获取数据
2.数据基本处理
2.1 合并表格
2.2 交叉表合并
2.3 数据截取
3.特征工程 — pca
4.机器学习(k-means)
5.模型评估