首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么在使用K-Means聚类时,我的数据点不在正确的准确集群中?

在使用K-Means聚类算法时,数据点可能被错误地分配到不正确的集群中,这可能由以下几个原因造成:

K-Means聚类算法的基本原理

K-Means是一种迭代求解的聚类分析算法,其步骤包括随机选择K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。

数据点不在正确集群中的原因

  • 数据集特性
    • 不同大小和密度的簇:K-Means算法假设所有簇都是均值相等、协方差相等的高斯分布,这限制了其适用范围。
    • 异常值:异常值可能会使聚类中心产生偏移,最终影响整个聚类结果的准确性。
    • 簇的形状不规则:K-Means算法假设每个簇都是凸的,当簇的形状不规则时,算法难以正确地识别出簇的边界。
    • 数据集具有噪声:噪声数据点可能会被错误地归为某个簇,从而影响整体的聚类效果。
  • 算法参数设置
    • 初始聚类中心选择不当:不合适的初始聚类中心可能导致K-Means算法陷入局部最优解,无法达到全局最优解。
    • 簇的数量K:K值的选取对K-means影响很大,选择过小的K值可能导致数据被过度压缩,丢失重要的内在结构。

解决方法

  • 数据预处理:确保数据的格式和维度正确,检查数据是否有缺失值、异常值等,并进行适当的清洗和预处理。
  • 特征选择:确定合适的特征用于聚类,确保特征选择正确且具有代表性。
  • 参数调节:尝试不同的k值,观察聚类结果的质量并选择合适的k值。对特征向量进行归一化处理,以避免不同维度的特征对聚类结果的影响不均衡。
  • 选择合适的距离度量:根据数据的分布和实际应用场景选择合适的距离度量方式,如欧氏距离、曼哈顿距离、切比雪夫距离等。
  • 优化初始质心选择:采用K-Means++等策略来选择初始质心,以提高聚类结果的稳定性和准确性。
  • 多次运行算法:运行K-Means多次,每次选择不同的初始质心,最终选择最优的聚类结果。

通过上述方法,可以有效地解决K-Means聚类中数据点被错误分配的问题,提高聚类的准确性和稳定性。

相关搜索:我的算法在使用IDF IDF时给出了坏的聚类为什么我的JavaScript在使用Blazor时不能正确渲染?在R中,为什么我在运行这个函数时得到了不正确的维数?为什么我的类中的init块在使用retrofit时没有被触发?如何在我的案例中(在类中)正确地使用模式?在python中通过成对距离进行分层聚类,我如何才能在特定的距离上进行切割,并获得集群和每个集群的成员列表?为什么我尝试使用designer中的form类的变量时出现错误?使用继承,为什么goPee()没有在我的测试类中定义?当我尝试使用OOP和类时,为什么我的代码在python中显示NameError?为什么我的javascript在使用Turbolinks时不能触发,即使使用了正确的事件侦听器?为什么在使用gridExtra时我的ggplot2图例大小不正确?[r]为什么我的"Data"."data“没有使用ChangeNotifierProvider在ChangeNotifier类中更新?在Spotfire中使用Python数据函数时,为什么我的新列命名不正确当使用混合项目时,为什么Scala case类中的Lombok在Java类中无法访问?为什么在使用super()时我必须指定自己的类,有没有办法解决它?当我在html元素上使用click事件时,为什么我的<ng-template>不能显示正确的html?为什么我的JSON在使用decode时不能在PHP脚本中解码?在使用类选择器的Goquery中,我在解析HTML时做错了什么?当所有数据都被正确返回时,为什么我在我的ngbtimepicker中使用ngModelChanges时会得到这个错误?为什么SQL server在我的表中插入0值,而不是使用函数插入正确的值?
相关搜索:
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

如何利用高斯混合模型建立更好、更精确的集群?

本文将带你了解高斯混合模型的工作原理以及如何在 Python 中实现它们,我们还将讨论 k-means 聚类算法,看看高斯混合模型是如何对它进行改进的。 我真的很喜欢研究无监督的学习问题。...它是一种强大的无监督学习技术,我们可以在现实世界中准确无误地使用它。 高斯混合模型是我在本文中要讨论的一种聚类算法。 想预测你最喜欢的产品的销量吗?想通过不同客户群体的视角来理解客户流失?...简单地说: 集群背后的思想是将数据点分组在一起,这样每个单独的集群都拥有最相似的数据点。 有各种各样的聚类算法。最流行的聚类算法之一是 k-means。...如果我们对这些数据使用 k-means 聚类,你认为会发生什么?它仍然试图以循环方式对数据点进行分组。那不太好!k-means 无法识别正确的集群: ?...当数据缺少值时,或者换句话说,当数据不完整时,我们通常使用 EM。 这些缺失的变量称为潜在变量。当我们在研究一个无监督学习问题时,我们认为目标(或簇数)是未知的。

83930

无监督机器学习中,最常见的聚类算法有哪些?

但是,大多数情况下,在处理实际问题时,数据不会带有预定义标签,因此我们需要开发能够对这些数据进行正确分类的机器学习模型,通过发现这些特征中的一些共性,来预测新数据的类。...· 探索性数据分析(EDA)非常有助于概述数据并确定K-Means是否为最合适的算法。 · 当存在大量列时,批训练(minibatch)的方法非常有用,但是不太准确。...如何选择正确的K值 选择正确数量的聚类是K-Means算法的关键点之一。...肘部法则 肘部法则用于确定数据集中正确的簇数。它的工作原理是绘制K的上升值与使用该K时获得的总误差。 目标是找到每个群集不会显著上升方差的k。 在这种情况下,我们将选择肘部所在的k = 3。...也可从数据集(天真方法)或应用K-Means中获取。 2.软聚类数据:这是“期望”阶段,其中所有数据点将分配给具有各自成员级别的每个聚类。

2.2K20
  • K-means 聚类算法

    聚类算法 聚类是把相似的对象通过静态分类方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。聚类算法的任务是将数据集划分为多个集群。...在相同集群中的数据彼此会比不同集群的数据相似。通常来说,目标就是通过相似特征将数据分组并分配进不同的集群中。...为了找到数据中的集群数,用户需要针对一系列 K 值运行 K-means 聚类算法并比较结果。通常,没有用于确定 K 的精确值的方法,但是可以使用以下技术获得准确的估计。...K-means : 聚类算法 用于非监督学习 使用无标签数据 需要训练过程 K-NN: 分类算法 用于监督学习 使用标签数据 没有明显的训练过程 基于 Rapid Miner 的 K-means 实践...问题阐述 在经典的 Iris Dataset 中,使用 K-means 算法将虹膜类植物进行聚类。

    1.6K10

    基于模型的聚类和R语言中的高斯混合模型

    有关高斯混合模型的详细信息 基于概率模型的聚类技术已被广泛使用,并且已经在许多应用中显示出有希望的结果,从图像分割,手写识别,文档聚类,主题建模到信息检索。...R中的建模 mb = Mclust(iris[,-5]) #定义聚类数 mb3 = Mclust(iris[,-5], 3) # 最优模型 mb$modelName # 最优聚类数 mb$G #...对于此示例,最可能的簇数为5,BIC值等于-556.1142。 比较聚类方法 在使用不同的聚类方法将数据拟合到聚类中之后,您可能希望测量聚类的准确性。...在大多数情况下,您可以使用集群内或集群间度量标准作为度量。集群间距离越高越好,集群内距离越低,越好。...如果我们将GMM与k-means进行比较和对比,我们会发现前者的初始条件比后者更多。 结果 每个聚类被建模为多元高斯分布,并通过给出以下内容来指定模型: 集群数量。 每个群集中所有数据点的分数。

    1.9K10

    无监督学习入门

    有几种不同类型的聚类算法你可以使用: k-means聚类:将您的数据点聚集成K个互斥集群。如何为K选择正确的数字是很复杂的。 Hierarchical聚类:将数据点聚集到父集群和子集群中。...您可以将您的客户划分为更年轻和更年长的层级,然后在这些组中继续划分为各自的集群。 probabilistic聚类:将您的数据点按概率规模聚集成集群。...这就是为什么在成熟的机器学习管道的预处理过程中,会使用PCA或SVD处理图像。 生成模型 生成模型是一类非监督学习模型,其中训练数据是给定的,新样本是从相同的分布中产生的。...因为在无监督学习中没有标签,所以几乎不可能得到一个合理的、客观的关于你的算法有多精确的度量。例如,在集群中,您如何知道K-Means是否找到了正确的集群?首先,您是否使用了正确数量的集群K?...“非监督学习对我有用吗?”。这个问题完全取决于你的业务环境。在我们的客户细分实践案例中,只有当您的客户分组正确时,集群才能很好地工作。

    65910

    五种聚类方法_聚类分析是一种降维方法吗

    聚类是一种关于数据点分组的机器学习技术。给出一组数据点,我们可以使用聚类算法将每个数据点分类到特定的组中。...由于K-means算法选择的聚类中心是随机的(即初始化是随机的),因此它可能会因为类数不同而运行算法中产生不同的聚类结果。因此,结果可能不可重复且缺乏一致性。相反,其他集群方法更一致。...四、使用高斯混合模型(GMM)的期望最大化(EM)聚类 K-Means的主要缺点之一是其使用了集群中心的平均值。 通过查看下面的图片,我们可以明白为什么这不是选取聚类中心的最佳方式。...K-Means在集群不是圆形的情况下也会出错,这也是因为使用均值作为集群中心的原因。 K-Means的两个失败案例 高斯混合模型(GMMs)比K-Means更具灵活性。...作为一个例子,我们将使用平均关联,它将两个集群之间的距离定义为第一个集群中的数据点与第二个集群中的数据点之间的平均距离。 在每次迭代中,我们将两个群集合并成一个群集。

    94420

    数据科学家们必须知道的 5 种聚类算法

    聚类是一种关于数据点分组的机器学习技术。给出一组数据点,我们可以使用聚类算法将每个数据点分类到特定的组中。...由于 K-means 算法选择的聚类中心是随机的(即初始化是随机的),因此它可能会因为类数不同而运行算法中产生不同的聚类结果。因此,结果可能不可重复且缺乏一致性。相反,其他集群方法更一致。...通过查看下面的图片,我们可以明白为什么这不是选取聚类中心的最佳方式。 在左侧,人眼看起来非常明显的是,有两个半径不同的圆形星团以相同的平均值为中心。...K-Means 无法处理这个问题,因为这些集群的平均值非常接近。K-Means 在集群不是圆形的情况下也会出错,这也是因为使用均值作为集群中心的原因。 ?...作为一个例子,我们将使用平均关联,它将两个集群之间的距离定义为第一个集群中的数据点与第二个集群中的数据点之间的平均距离。 在每次迭代中,我们将两个群集合并成一个群集。

    1.2K80

    详解DBSCAN聚类

    无监督的意思是它不使用预先标记的目标来聚类数据点。聚类是指试图将相似的数据点分组到人工确定的组或簇中。它可以替代KMeans和层次聚类等流行的聚类算法。...此外,KMeans在集群大小和密度不同的情况下还存在数据精确聚类的问题。K-Means只能应用球形簇,如果数据不是球形的,它的准确性就会受到影响。...特征降维 在一些算法如KMeans中,如果数据集的特征维度太大,就很难精确地构建聚类。高维数并不一定意味着成百上千维度的特征。甚至10个维度的特征也会造成准确性问题。...在应用DBSCAN算法时,我们可能能够在数据点较少的聚类结果中找到不错的聚类方式,但在数据点较多的聚类中的许多数据点可能被归类为离群值/噪声。这当然取决于我们对epsilon和最小点值的选择。...此外,剪影得分-0.521表明数据点是不正确的聚集。 看看下面的3D图,我们可以看到一个包含了大多数数据点的集群。出现了一个较小但很重要的聚类簇,但剩下52个聚类簇的规模要小得多。

    1.8K10

    使用高斯混合模型建立更精确的聚类

    它是一种强大的无监督学习技术,我们可以在现实世界中准确地使用它。 高斯混合模型就是我想在本文中讨论的一种聚类算法。 想预测一下你最喜欢的产品的销售情况吗?或许你想通过不同客户群体的视角来理解客户流失。...目录 聚类简介 k-means聚类简介 k-means聚类的缺点 介绍高斯混合模型 高斯分布 期望最大化EM算法 高斯混合模型的期望最大化 在Python中实现用于聚类的高斯混合模型 聚类简介 在我们开始讨论高斯混合模型的实质内容之前...对于给定的一组数据点,我们的GMM将识别属于这些分布的每个数据点的概率。 等一下,概率? 你没看错!混合高斯模型是概率模型,采用软聚类方法将点分布在不同的聚类中。我再举一个例子,这样更容易理解。...高斯混合模型使用软聚类技术将数据点分配给高斯分布。 高斯分布 我相信你们对高斯分布(或正态分布)很熟悉。它有一个钟形曲线,数据点对称分布在平均值周围。...我们通常在数据缺少值时使用EM,或者换句话说,在数据不完整时会使用EM算法。 这些缺失的变量被称为隐变量。在处理无监督学习问题时,我们认为目标(或簇数量)是未知的。

    1K30

    特征工程系列之非线性特征提取和模型堆叠

    然而,特征工程的目的并不是要使特征维数尽可能低,而是要达到任务的正确特征。在这一章中,正确的特征是代表数据空间特征的特征。 聚类算法通常不是局部结构化学习的技术。但事实上也可以用他们这么做。...k 均值聚类 k 均值是一种聚类算法。聚类算法根据数据在空间中的排列方式来分组数据。它们是无监督的,因为它们不需要任何类型的标签,使用算法仅基于数据本身的几何形状来推断聚类标签。...k 均值建立一个硬聚类,意味着每个数据点被分配给一个且只分配一个集群。该算法学习定位聚类中心,使得每个数据点和它的聚类中心之间的欧几里德距离的总和最小化。...为了说明在聚类时使用和不使用目标信息之间的差异,我们将特征化器应用到使用sklearn的 make——moons 函数(例 7-4)生成的合成数据集。然后我们绘制簇边界的 Voronoi 图。...图 7-6 展示出了结果的比较。底部面板显示没有目标信息训练的集群。注意,许多簇跨越两个类之间的空空间。顶部面板表明,当聚类算法被给定目标信息时,聚类边界可以沿着类边界更好地对齐。

    1.3K40

    机器学习算法备忘单!

    它从根部开始,所有项目都分组在一个集群中,然后在每个迭代阶段将最多的项目分成两个。迭代程序直到所有的项目都在他们的组中。 如果你不寻找分层解决方案,则必须确定你的方法是否需要指定要使用的集群数量。...而minPoints是创建一个集群的最小点数。 我们在分析Netflix服务器的异常值时使用了这种算法。...K-Means 数据被聚类为k个组,其方式是同一聚类中的数据点是相关的,而其他聚类中的数据点则相距较远。这种距离经常用欧几里得距离来衡量。...换句话说,K-Means算法试图最小化聚类内的距离,最大化不同聚类之间的距离。 搜索引擎、消费者细分、垃圾邮件检测系统、学术表现、缺陷诊断系统、无线通信和许多其他行业都使用K-Means聚类。...GMM与K-Means不同,因为在GMM中,我们不知道一个数据点是否属于一个指定的聚类,我们使用概率来表达这种不确定性。而K-Means方法对一个数据点的位置是确定的,并开始在整个数据集上迭代。

    40020

    机器学习算法背后的数学原理

    无监督学习:目标或输出变量是未知的情况。这些算法通常对数据进行分析并生成数据簇。关联、聚类和维数约简算法属于这一类。...K-means聚类、PCA(主成分分析)、Apriori算法等也都是非监督学习算法。 半监督学习:它是监督和非监督学习方法的结合。它使用已知数据来训练自己,然后标记未知数据。...在随机森林中,每棵决策树预测一个类结果,投票最多的类结果成为随机森林的预测项。为了做出准确的预测,决策树之间的相关性应该最小。有两种方法可以确保这一点,即使用Bagging和特性选择。...K-Means K-Means是一种无监督学习算法,用于形成数据簇。形成的集群应该使集群内的数据点尽可能相似,集群之间的差异尽可能明显。它随机选择K个位置,每个位置作为一个簇的质心。...数据点被分配到最近的簇。在分配数据点之后,计算每个聚类的质心,再次将数据点分配到最近的聚类中。此过程将重复进行,直到在每次连续迭代中数据点保持在同一簇中,或簇的中心不改变为止。

    1.2K10

    智能主题检测与无监督机器学习:识别颜色教程

    与监督学习的方法相似,无监督学习和聚类可以利用训练数据来形成分组。当监督学习使用预先标记的训练集时,无监督的学习只需要数据。很自然地,预先标记的训练数据用于监督学习不仅费时,而且容易出现人为错误。...由于机器学习使用数据中的数值特性来形成关联和分类,因此它可以确定一组边界,以便将颜色分类到它们各自的分组或聚类中。...这种聚类算法将数据分组到k个集群中,基于每个数据点的特性与彼此之间的相似程度。我们可以将K-Means聚类算法应用到颜色点上,根据它们各自的红、绿、蓝颜色来组合它们。...上图显示了在训练过程中,颜色是如何组合在一起的。当然,所有的蓝色值都被分组到集群1(“蓝色组”)中。当我们使用简单的y轴的数值计算时,这包括了紫色和粉红色的颜色(之前可能已经在图的顶部画过了。...在新数据上预测 既然我们已经用K-means聚类训练了无监督机器学习算法,我们就有了一种将颜色数据点标记为特定集群的方法。我们将每个集群分别标记为“蓝色组”、“红色组”和“绿色组”。

    2.5K40

    聚类算法,k-means,高斯混合模型(GMM)

    聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。...理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。...在此之后,畸变值就下降的非常慢,看起来就像使用 3 个聚类来进行聚类是正确的,**这是因为那个点是曲线的肘点,畸变值下降得很快,? = 3之后就下降得很慢,那么我们就选? = 3。...2.5 K-Means优缺点及改进 k-means:在大数据的条件下,会耗费大量的时间和内存。优化k-means的建议: 减少聚类的数目K。因为,每个样本都要跟类中心计算距离。 减少样本的特征维度。...考察其他的聚类算法,通过选取toy数据,去测试不同聚类算法的性能。 hadoop集群,K-means算法是很容易进行并行计算的。 算法可能找到局部最优的聚类,而不是全局最优的聚类。

    5.6K20

    一文读懂K均值(K-Means)聚类算法

    假设聚类簇数k=3,初始聚类簇中心分别为数据点2、数据点3、数据点5。...在K-Means中,在一个固定的簇数K条件下,最小化总体平方和来求解最佳质心,并基于质心的存在去进行聚类。两个过程十分相似,并且整体距离平方和的最小值其实可以使用梯度下降来求解。...在过去的经验中,已经总结出不同距离所对应的质心选择方法和Inertia,在K-Means中,只要使用了正确的质心和距离组合,无论使用什么距离,都可以达到不错的聚类效果。...在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以需要通过使用预测的准确度、混淆矩阵、ROC曲线等指标来进行评估,但无论如何评估,都是在评估“模型找到正确答案”的能力。...当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故Inertia的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以Inertia的下降幅度会骤减,然后随着

    1.2K20

    每周学点大数据 | No.54聚类算法——k-means

    小可:看起来得出的结果挺准确啊,哪里不好呢? Mr. 王:在实际使用的数据中,非常有可能出现噪声或者离群点。大部分点都集中在某个区域里面,但是有几个点距离其他的点都非常远。...在实际应用中,k-means 算法的输入数据量往往是非常大的,使用像MapReduce 这种并行平台是非常常见的。...当我们要进行一些简单的聚类时,可以直接使用这些组件包的库函数。 其实不论是k-means 还是k- 中心点算法在思想上都有一个小缺陷。...如果大量的数据分布非常的密集、杂乱,很难从直观上看出这些大量杂乱的点应该分成几类时,我们所指定的不准确的k 值也有可能影响聚类结果。...王:所以k-means 也不是一种万能的聚类方法。至于对这种问题的解决,科学家们提出了基于密度的聚类方法,在这里我就不展开谈了。

    89450

    讨论k值以及初始聚类中心对聚类结果的影响_K均值聚类需要标准化数据吗

    3 算法原理 K均值聚类算法(K-Means) 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类,使得同一个类内的数据对象的相似性尽可能大,同时使不在同一个类中的数据对象的差异性也尽可能地大...在每次迭代中都要考察样本的分类是否正确是K均值聚类算法的一个的特点。 在数据挖掘中,K 均值聚类算法广泛的应用于科学研究、数据统计分析等研究领域,是经典聚类算法之一。...关于初始点K值确定的一种简单的方法: 关于k的个数的确定:我们可能不知道在K均值中正确的k值。但是,如果能够在不同的K下对聚类结果的质量进行评价,我们往往能够猜测到正确的k值。...输入数据点集合X,并指定聚类类数N,在X中随机选取N个对象作为初始聚类中心; 2)设定迭代终止条件。比如最大循环次数或者聚类中心收敛误差容限; 3)更新样本属于哪个类。...K-means聚类算法缺点: (1) 在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用; (2) 在 K-means 算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的。

    2.6K32

    基于图的 Affinity Propagation 聚类计算公式详解和代码示例

    谱聚类和AP聚类是基于图的两种聚类,在这里我介绍AP聚类。...它以数据点之间的相似性作为输入,并根据一定的标准确定范例。在数据点之间交换消息,直到获得一组高质量的范例。...与k-means或k-medoids等聚类算法不同,传播在运行算法之前不需要确定或估计簇的数量。 公式详解 我们使用下面的数据集,来介绍算法的工作原理。...在计算了其他参与者对的吸引度之后,我们得到了下面的矩阵。 吸引度是用来描述点k适合作为数据点i的聚类中心的程度。...如果取输入的相似度的均值作为p的值,得到聚类数量是中等的。如果取最小值,得到类数较少的聚类。 Damping factor(阻尼系数):主要是起收敛作用的。

    90010

    聚类算法总结及对比!

    数据预处理:在某些机器学习任务中,可以使用聚合聚类作为预处理步骤来简化数据或提取特征。...形状限制:只能发现球形簇,对于非球形簇的形状可能无法准确识别。 计算量大:对于高维数据,计算量较大。 使用场景 异常检测:K-Means聚类可以用于异常检测,将异常值识别为与其它数据点距离较远的簇。...市场细分:在市场营销领域,可以使用K-Means聚类将客户划分为不同的细分市场。 图像分割:在图像处理中,可以使用K-Means聚类进行图像分割,将图像划分为多个区域或对象。...在聚类任务中,高斯混合模型将数据点划分为K个簇,每个簇的数据点都遵循一个高斯分布(正态分布)。...外部评价指标是在已知真实标签的情况下评估聚类结果的准确性,而内部评价指标则是在不知道真实标签的情况下评估聚类结果的质量。

    8.8K22

    原创 | 一文读懂K均值(K-Means)聚类算法

    假设聚类簇数k=3,初始聚类簇中心分别为数据点2、数据点3、数据点5。...在K-Means中,在一个固定的簇数K条件下,最小化总体平方和来求解最佳质心,并基于质心的存在去进行聚类。两个过程十分相似,并且整体距离平方和的最小值其实可以使用梯度下降来求解。...在过去的经验中,已经总结出不同距离所对应的质心选择方法和Inertia,在K-Means中,只要使用了正确的质心和距离组合,无论使用什么距离,都可以达到不错的聚类效果。...在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以需要通过使用预测的准确度、混淆矩阵、ROC曲线等指标来进行评估,但无论如何评估,都是在评估“模型找到正确答案”的能力。...当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故Inertia的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以Inertia的下降幅度会骤减,然后随着

    10.1K42
    领券