我就在这里等你关注,不离不弃
——A·May
R-JL |T-155
思路:
1.三步实现层次聚类(这么叫是为了记思路容易些)
2.三步实现基于中心点的PAM聚类
3.密度聚类的两个作用(聚类和识别异常值)
简述:
1.层次聚类的结果直观,但是数据太大就做不了,此处也额外思考共词矩阵的分析,对于阈值的把握一定要合理。
2.k-means适用并常用于大数据,但是,容易受到异常值的影响,所以预处理1中的异常值处理和预处理2中的标准化处理对其极为重要。
3.PAM聚类是k-means针对异常值影响的稳健升级版,可以容纳混合数据型,不限于连续型变量,但是PAM对小的数据集非常有效,对大数据集效率不高,特别是n和k都很大的时候。
4.密度聚类,类似dbscan聚类法可以对不同的形状进行聚类,但是不能很好的反应高维度数据以及其密度的变化。
脚本过程:
1.三步实现层次聚类
2.三步实现基于中心点的聚类PAM
3.基于密度聚类DBSCAN的两个作用
友情提示:
聚类方法不止这四种,但是个人觉得这四种可以到达目的了。其次,聚类的作用体现在客户分群、用户画像和产品组合等多个方面,早早思考一个主题做出相应的报告才是王道。最后,关于模型的优缺点、使用条件、使用情景和经典案例还请自行补充。
学习数据分析的平台
领取专属 10元无门槛券
私享最新 技术干货