From https://blog.csdn.net/gxq1221/article/details/81113346 腾讯18年数据挖掘
有三种方法
参考:
https://www.zhihu.com/question/29208148 知乎问答k值怎么确定
KNN是一种memory-based learning,需要带label的数据,实际上是基于统计的。在附近找K个最近的点进行投票。
k-means:选定k值与,根据与初始点的距离不断迭代,重新划定初始点
(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。(b)假设数据集可以分为两类,令K=2,随机在坐标上选两个点,作为两个类的中心点。(c-f)演示了聚类的两种迭代。先划分,把每个数据样本划分到最近的中心点那一簇;划分完后,更新每个簇的中心,即把该簇的所有数据点的坐标加起来去平均值。这样不断进行”划分—更新—划分—更新”,直到每个簇的中心不在移动为止。
参考:
https://www.cnblogs.com/nucdy/p/6349172.html