首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【趣味】数据挖掘(8)——K-平均聚类及蛋鸡悖论

本文从农村中学并迁选址问题出发,介绍了数据挖掘十大算法中位居第二的K-平均聚类,后又借用牛顿迭代原理,议论蛋鸡悖论。...求质心位置用(加权)平均,故由此引出的算法称为K-平均算法,由J.MacQueen于1967年提出。 初听起来不错,却似有悖论之纠结。还没有开始聚簇,怎样知道哪些质点是一簇而在一起选举质心?...若干教科书在这一内容前没有分析这个纠结,使初学者不易理解K-平均算法之微妙,反而错误地以为该算法笨笨的,慢慢的。...3、 用聚类为农村中学迁移选址:K-平均聚类 图2给出了k-平均法的轮廓,是在韩家炜教授等著名专家撰写的书(参见文献[2])中的一个图添加了一簇而成,赋以了本应用题环境的语义,含5个子图分别标记为...K-平均算法有一瑕疵:需要先验的簇数K,引来若干批评和改进,殊不知,这正是“算法如此多娇,引无数英雄竟改进”,增加了其影响力,也增加了文献[1]的它引率。而在实践中,这一瑕疵不是大问题,Why?

79360

【数据挖掘】基于层次的聚类方法 ( 聚合层次聚类 | 划分层次聚类 | 族间距离 | 最小距离 | 最大距离 | 中心距离 | 平均距离 | 基于层次聚类步骤 | 族半径 )

最大距离 族间距离 中心点距离 族间距离 平均距离 基于层次聚类 ( 聚合层次聚类 ) 步骤 基于层次聚类 ( 聚合层次聚类 ) 算法终止条件 族半径 计算公式 基于层次聚类总结 基于层次的聚类方法...聚类个数逐渐增加 , 当聚类个数达到最大值 max , 停止聚类算法 ; ③ 聚类样本的最低半径 : 聚类的数据样本范围不能无限扩大 , 指定一个阈值 , 只有将该阈值内的样本放入一组 ; 半径指的是所有对象距离其平均点的距离...聚类间的 中心点距离 ; 族间距离 平均距离 ---- C_i \,, C_j 族间距离 平均距离 公式 : d_{avg}(C_i , C_j) = \frac{1}{n_i n_j}\sum_{..., 这里 C_i 中每个点都对应 n_j 个距离 , n_i 个点 , 对应 n_i \times n_j 个距离 ; 总结 : 两个聚类中的 平均距离 就是 聚类间的 所有点的距离的平均距离..., 称为 原子聚类 ; ③ 步骤二 : 计算所有 聚类 之间的距离 ; 可以采用 最小距离 , 最大距离 , 中心点距离 , 平均距离 中的一个 ; ④ 步骤三 : 将距离最近的两个 聚类分组 合并

3.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    机器学习(十五) K-means 算法

    1 简介 K-means称为K-平均算法,简单来讲K-平均聚类算法的目的就是: 把 n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,...,xn),其中每个观测都是一个 d-维实向量,k-平均聚类要把这 n个观测划分到k个集合中(k≤n),使得组内平方和(WCSS within-cluster sum of squares)最小。...这一算法经常被描述为“把观测按照距离分配到最近的聚类”。标准算法的目标函数是组内平方和(WCSS),而且按照“最小二乘和”来分配观测,确实是等价于按照最小欧氏距离来分配观测的。...如果使用不同的距离函数来代替(平方)欧氏距离,可能使得算法无法收敛。然而,使用不同的距离函数,也能得到k-均值聚类的其他变体,如球体k-均值算法和k-中心点算法。 3 代码实例 # !...具体分类 4 参考资料 k-平均算法 维基百科 K-means聚类算法 数据挖掘十大算法--K-均值聚类算法

    54620

    k-近邻算法

    《机器学习实战》一书介绍的第一个算法是k-近邻算法。简单的说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。...其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。...在分类任务中可使用“投票法”,即选择这个k个样本中出现最多的类别标记作为预测结果; 在回归任务中可使用“平均法”,即将这k个样本的实值输出标记的平均值作为预测结果。...一般来说,选择k个最相似的数据,这就是k-近邻算法中k的出处。 从前面的分析可以看出,k-近邻算法没有显式的训练过程,在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理。...距离计算方式。在《机器学习实战》中采取的是欧式距离公式: ?

    72120

    聚类分析方法(一)

    (三)k-means算法 1、算法描述   k-means算法也称k-平均算法,它采用距离作为相异度的评价指标,以簇内差异函数 w(C) 作为聚类质量的优化目标函数,即将所有数据对象到它的簇中心点的距离平方和作为目标函数...3、算法分析说明 1)算法的优点 ① k-平均算法简单、经典,常作为其它聚类算法的参照或被改进。...③ k-平均算法以簇内对象的平均值作为簇中心来计算簇内误差,在连续属性的数据集上很容易实现,但在具有离散属性的数据集上却不能适用。...(五)k-中心点算法   为降低k-平均算法对噪声数据的敏感性,k-中心点 (k-medoids) 算法不采用簇的平均值 (通常不是簇中的对象,称为虚拟点) 作为簇中心点,而是选择簇中一个离平均值最近的具体对象作为簇中心...1、算法原理   k-中心点算法选择一个簇中位置距平均值点最近的对象替换k-平均算法的平均值中心点。首先为每个簇随机选择一个代表对象作中心点,其余对象 (非中心点) 分配给最近的代表对象所在的簇。

    4200

    机器学习(九)-------- 聚类(Clustering) K-均值算法 K-Means

    K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。 K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为: 首先选择?...个随机的点,称为聚类中心(cluster centroids); 对于数据集中的每一个数据,按照距离?个中心点的距离,将其与距离最近的中心点关 联起来,与同一个中心点关联的所有点聚成一类。...计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。 重复步骤 2-4 直至中心点不再变化。...K-均值算法也可以很便利地用于将数据分为许多不同组,即使在没有非常明显区分的组 群的情况下也可以。...为了解决这个问题,我们通常需要多次运行 K-均值算法,每一次都重新进行随机初始 化,最后再比较多次运行 K-均值的结果,选择代价函数最小的结果。这种方法在?

    69320

    讲解机器学习中的 K-均值聚类算法及其优缺点

    K-均值(K-means)聚类算法是一种常用的无监督机器学习算法,用于将一组未标记的数据集分为 K 个不同的类别或簇。 算法步骤如下: 选择要分成的簇的个数 K。...对于每个样本,计算其与每个簇中心点的距离,并将其分配给距离最近的簇。 更新每个簇的中心点为该簇中所有样本的平均值。 重复步骤 3 和步骤 4,直到簇中心点不再改变,或达到预定的迭代次数。...K-均值聚类算法的优点如下: 简单而直观,易于理解和实现。 可用于大规模数据集,计算效率高。 对于结构化和非结构化数据都适用。 K-均值聚类算法的缺点如下: 需要事先指定聚类的个数 K。...为了克服 K-均值聚类算法的一些缺点,还有一些改进的方法,如谱聚类、层次聚类、密度聚类等。

    14210

    机器学习中的 K-均值聚类算法及其优缺点

    K-均值聚类算法是一种常见的无监督学习算法,用于将数据集分成 K 个不同的簇。它的目标是最小化数据点与各自质心的距离之和。下面是K-均值聚类算法的步骤: 选择要创建的簇的数量 K。...对于每个数据点,计算其与各个质心的距离,并将其分配给最近的质心所代表的簇。 更新每个簇的质心,即将簇中所有数据点的平均值作为新的质心。 重复步骤3和4,直到质心不再发生变化或达到最大迭代次数。...K-均值聚类算法的优点包括: 相对简单和易于实现,适用于大规模数据集。 对于凸形状的簇效果较好。 可以用于预处理数据,将数据点分成不同的簇,并用簇的质心代表簇进行进一步分析。...然而,K-均值聚类算法也有一些缺点: 需要提前指定簇的数量 K,这对于某些数据集可能不太容易确定。 对初始质心的选择敏感,不同的初始质心可能导致不同的结果。...综上所述,K-均值聚类算法是一种简单而有效的聚类算法,但在某些情况下可能存在一些局限性。在实践中,可以使用其他聚类算法来克服一些 K-均值聚类算法的限制。

    19010

    基于Spark的机器学习实践 (九) - 聚类算法

    y值 1.2 k-平均算法与无监督学习 ◆ k-平均算法是无监督学习的一种 ◆ 它不需要人为指定一个因变量,即标签y ,而是由程序自己发现,给出类别y ◆ 除此之外,无监督算法还有PCA,GMM等...k-平均聚类的目的是:把n 个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。...而且,它们都使用聚类中心来为数据建模;然而k-平均聚类倾向于在可比较的空间范围内寻找聚类,期望-最大化技术却允许聚类有不同的形状。...k-平均聚类与k-近邻之间没有任何关系(后者是另一流行的机器学习技术)。...2 k-平均算法原理 2.1 k-平均算法描述 ◆ 设置需要聚类的类别个数K ,以及n个训练样本,随机初始化K个聚类中心 ◆ 计算每个样本与聚类中心的距离,样本选择最近的聚类中心作为其 类别;重新选择聚类中心

    1.4K20

    数据挖掘十大算法--K近邻算法

    二、k-近邻法 基于实例的学习方法中最基本的是k-近邻算法。这个算法假定所有的实例对应于n维欧氏空间Ân中的点。一个实例的最近邻是根据标准欧氏距离定义的。...对前面的k-近邻算法作简单的修改后,它就可被用于逼近连续值的目标函数。为了实现这一点,我们让算法计算k个最接近样例的平均值,而不是计算其中的最普遍的值。更精确地讲,为了逼近一个实值目标函数 ?...三、距离加权最近邻算法 对k-近邻算法的一个显而易见的改进是对k个近邻的贡献加权,根据它们相对查询点xq的距离,将较大的权值赋给较近的近邻。...四、对k-近邻算法的说明 按距离加权的k-近邻算法是一种非常有效的归纳推理方法。它对训练数据中的噪声有很好的鲁棒性,而且当给定足够大的训练集合时它也非常有效。...注意通过取k个近邻的加权平均,可以消除孤立的噪声样例的影响。 1、问题一:近邻间的距离会被大量的不相关属性所支配。

    1.2K50

    基于Spark的机器学习实践 (九) - 聚类算法

    y值 1.2 k-平均算法与无监督学习 ◆ k-平均算法是无监督学习的一种 ◆ 它不需要人为指定一个因变量,即标签y ,而是由程序自己发现,给出类别y ◆ 除此之外,无监督算法还有PCA,GMM等 源于信号处理中的一种向量量化方法...k-平均聚类的目的是:把n 个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。...而且,它们都使用聚类中心来为数据建模;然而k-平均聚类倾向于在可比较的空间范围内寻找聚类,期望-最大化技术却允许聚类有不同的形状。...k-平均聚类与k-近邻之间没有任何关系(后者是另一流行的机器学习技术)。...2 k-平均算法原理 2.1 k-平均算法描述 ◆ 设置需要聚类的类别个数K ,以及n个训练样本,随机初始化K个聚类中心 ◆ 计算每个样本与聚类中心的距离,样本选择最近的聚类中心作为其 类别;重新选择聚类中心

    64730

    【算法】k均值和层次聚类

    在本文中,你将阅读到两种聚类算法——k-均值聚类和层次聚类,机器可以用其来快速理解大型数据集。 K-均值聚类(K-means clustering) 何时使用?...K-均值在这里有效,是因为我们可以合理地预测这些数据会自然地落到这三个分组中。...工作方式 首先我们会计算距离矩阵(distance matrix),其中矩阵的元素(i,j)代表观测值 i 和 j 之间的距离度量。然后将最接近的两个观察值组为一对,并计算它们的平均值。...现在,最近的距离成了领航鲸与逆戟鲸,所以我们计算其平均长度(7.0m),并合并成新的一项。 随后我们再重复步骤一,再一次计算距离矩阵,只不过现在将领航鲸与逆戟鲸合并成一项且设定长度为 7.0m。...聚类根据它们不同的距离而连接,但是我们定义「近距离」的方式是很灵活的。在上面的案例中,我们通过测量每一聚类平均值(即形心(centroid))之间的距离,并与最近的聚类进行配对。

    1.5K100

    【模式识别】探秘分类奥秘:K-近邻算法解密与实战

    2 K-近邻法 2.1 研究目的 1.理解K-近邻法的基本原理和核心概念。 2.学习如何使用K-近邻算法进行模型训练和预测。 3.掌握K-近邻法在不同数据集上的应用和调优方法。...对这K个最近邻样本中的标签进行统计,将新数据点分类为出现最频繁的类别(对于分类问题)或计算其输出值的平均值(对于回归问题)。...距离度量: KNN 算法通常使用欧氏距离来度量两个数据点之间的距离,但也可以使用其他距离度量方法,如曼哈顿距离、闵可夫斯基距离等。...取K个邻居的输出值的平均值作为新数据点的预测输出。 特点: KNN 是一种懒惰学习算法,不进行显式的训练过程,只在预测时进行计算。...2.3.3 实验结果 2.4 研究体会 K-近邻法的核心思想: 通过实践深刻理解K-近邻法是一种基于实例的学习方法,其核心思想是通过计算样本之间的距离,利用最近的K个样本的标签信息进行预测。

    22610

    【模式识别】探秘聚类奥秘:K-均值聚类算法解密与实战

    分配数据点: 对于每个数据点,将其分配到距离最近的聚类中心所属的簇。这里通常使用欧氏距离来度量数据点与聚类中心之间的距离。...更新聚类中心: 对于每个簇,计算其中所有数据点的平均值,将该平均值作为新的聚类中心。这一步相当于重新调整簇的位置,以使得簇内样本的方差最小化。 重复迭代: 重复步骤2和步骤3,直到满足停止条件。...更新: 计算每个簇的新中心,以簇内样本的平均值表示。 迭代: 重复分配和更新步骤,直到满足停止条件。...距离计算函数: double Euclidean(PATTERN x, PATTERN y): 计算两个数据点之间的欧氏距离。...该函数通过遍历坐标数组计算每个维度上的差值平方和,然后取平方根得到欧氏距离。

    25610

    异常检测:探索数据深层次背后的奥秘《中篇》

    3.2.2 k-邻域(k-distance neighborhood):  由k-距离,我们扩展到一个点的集合——到对象$p$的距离小于等于k-距离的所有点的集合,我们称之为k-邻域:$N_{k − d...在二维平面上展示出来的话,对象$p$的k-邻域实际上就是以对象$p$为圆心、k-距离为半径围成的圆形区域。就是说,k-邻域已经从“距离”这个概念延伸到“空间”了。...$o$的k-邻域内,则可达距离就是给定点$p_i$关于对象o的k-距离;若$p_i$在对象$o$的k-邻域外,则可达距离就是给定点$p_i$关于对象o的实际距离。   ...可达距离的设计是为了减少距离的计算开销,$o$的k-邻域内的所有对象$p$的k-距离计算量可以被显著降低,相当于使用一个阈值把需要计算的部分“截断”了。...在这里,我们使用数据集$D$中对象$p$与对象$o$的k-邻域内所有点的可达距离平均值的倒数(注意,不是导数)来定义局部可达密度。

    41330

    13聚类K-means

    ---- 13.2K 均值算法 K-Means Algorithm K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组 算法步骤综述 K-均值是一个迭代算法,假设我们想要将数据聚类成...,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。...移动聚类中心(move centroids) 计算 每一个组 的平均值,将该组所关联的中心点移动到平均值的位置。 重复步骤 2-4 直至中心点不再变化。...当前所属的簇的索引编号 , 表示 第 k 个聚类中心 的位置,其中 根据以上定义:则 表示样本 所属簇的中心的 位置坐标 K-means 算法的优化目标 损失函数为 每个样本到其所属簇的中心的距离和的平均值...K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。 ?

    88920

    吴恩达《Machine Learning》精炼笔记 8:聚类 KMeans 及其 Python实现

    距离计算 xi,xj 的Lp的距离定义为: 规定:p≥1,常用的距离计算公式有 当p=2时,即为欧式距离,比较常用,即: 当p=1时,即曼哈顿距离,即: 当p趋于无穷,为切比雪夫距离,它是各个坐标距离的最大值...: 余弦相似度 余弦相似度的公式为: Pearson皮尔逊相关系数 皮尔逊相关系数的公式如下: K-均值算法 算法思想 K-均值,也叫做k-means算法,最常见的聚类算法,算法接受一个未标记的数据集...假设将数据分成n个组,方法为: 随机选择K个点,称之为“聚类中心” 对于数据集中的每个数据,按照距离K个中心点的距离,将其和距离最近的中心点关联起来,与同个中心点关联的所有点聚成一类。...计算上面步骤中形成的类的平均值,将该组所关联的中心点移动到平均值的位置 重复上面两个步骤,直到中心点不再变化。...均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(畸变函数Distortion function) : 其中μ代表与xi最近的聚类中心点 优化目标就是找出使得代价函数最小的

    71110

    【数据挖掘】聚类算法总结

    然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。...至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等(其中类平均法往往被认为是最常用也最好用的方法,一方面因为其良好的单调性,另一方面因为其空间扩张/浓缩的程度适中...(k)就被称为k-距离。...也就是说,k-距离是点p(i)到所有点(除了p(i)点)之间距离第k近的距离。对待聚类集合中每个点p(i)都计算k-距离,最后得到所有点的k-距离集合E={e(1), e(2), …, e(n)}。...④根据经验计算半径Eps:根据得到的所有点的k-距离集合E,对集合E进行升序排序后得到k-距离集合E’,需要拟合一条排序后的E’集合中k-距离的变化曲线图,然后绘出曲线,通过观察,将急剧发生变化的位置所对应的

    2.8K90

    吴恩达笔记8-KMeans

    距离计算 x_i,x_j的L_p的距离定义为: ? 规定:p\geq1,常用的距离计算公式有 当p=2时,即为欧式距离,比较常用,即: ? 当p=1时,即曼哈顿距离,即: ?...K-均值算法 算法思想 K-均值,也叫做k-means算法,最常见的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。...计算上面步骤中形成的类的平均值,将该组所关联的中心点移动到平均值的位置 重复上面两个步骤,直到中心点不再变化。...优化目标Optimization Objective K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(畸变函数Distortion function...随机初始化 在运行K-均值算法的之前,首先要随机初始化所有的聚类中心点: 选择K < m 随机训练K个训练实例,然后令K个聚类中心分别和这K个训练实例相等 关于K-means的局部最小值问题: ?

    80811

    论文笔记13 -- (层次聚类)Performance guarantees for hierarchical clustering

    定理2 在前一个定理的设置中,有一个随机算法,它产生一个分层的聚类,使得对于每个k,产生的k-聚类具有预期cost,最多是最优k-聚类的2e≈5.44倍。...在单链(single- linkage)聚类中,两个类之间的距离是它们最近的一对点之间的距离。...在完全链(complete-linkage)聚类中,这是它们最远一对点之间的距离(因此,完全链明确地尝试最小化直径,这是我们的cost函数之一)。...平均链(Average-linkage)有很多变种;在我们考虑的一个变种中,类之间的距离是它们平均值之间的距离[5]。 我们分析了这三种启发式的最坏情况,发现它们的近似比是无界的。...定理3 对于任何k,单链都能产生k-聚类,这是最优的乘法因子k,而平均和完全链可以通过乘法因子log2k来关闭。

    66330
    领券