首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据科学之机器学习进阶子篇——聚类

“要以真诚的态度从他人的视角看事情。” -- 《人性的弱点》

今天给大家带来机器学习子篇的进阶部分 -- 聚类,也是数据科学在做问题分析和调研的时候常用的算法之一。

本文不重点讲述某类算法的细节,重点在于学习聚类算法的相关基础知识点。一、聚类和分类之间的关系;二、常见聚类算法介绍;三、总结和对比。

一、聚类和分类之间的关系

要学习聚类,不得不提分类,作为机器学习领域两大分支,两者密不可分,又同有区别,抛开数学原理不说,单看操作过程就可以很好的理解了,我们来看两图。如下图是一个典型的分类算法的学习过程,已知label,这些样本的形状和颜色都不相同。那么分类算法的目标就是找到这么一条线,能够把这些样本分开。

我们再来看一张图,我们事先并不知道label是多少,希望通过聚类算法,将样本进行研究。

这么说可能比较举个例子,比如说金融场景下研究各个用户之间的联系,通常会使用聚类算法进行人群聚类,发现高危反欺诈群体,如下图:

聚类的标准定义:按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。

二、常见聚类算法研究

版权申明:本文为数据科学小白原创文章,授权头条号发表,转载请注明出处。

参考文献:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180209A0OV7H00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券