mysql 添加聚簇索引_mysql 聚簇索引_mysql聚簇索引 - 腾讯云开发者社区

、

我正在使用来自KMeans ML.NET ()的聚类算法，在评估模型时，我在模型度量中看到了Davies Bouldin Index。这个指数的范围是多少？它的零值是什么意思？

浏览 9提问于2022-03-10得票数 0

回答已采纳

1回答

循环，直到通过更改输入数据来满足条件。

、、

我有一个Rna-seq数据集(rows=samples，columns=genes)，它具有聚类功能.这些基因被分类为n个簇，其中属于0簇的基因是非聚类基因。这些聚类又回到聚类中，我们又得到了n个标记数的簇，其中0又是非聚类基因。这一过程一直进行到没有进一步的基因被分类为第0组。我需要循环进入这个过程，以便在每次迭代时返回最终的聚类结果以及属于群集0的基因的合并。我知道这可以用时间或重复来完成。我试过使用重复，但没有工作，问题是，我没有真正清楚如何正确设置这一点。 #define my dataset dat<-my_dataset repeat{ #run the cluster

浏览 4提问于2020-05-06得票数 0

2回答

估计两个簇间的最小距离

、、、

我正在为数百万个50-1000维点设计一个聚集的，自下而上的聚类算法.在算法的两部分中，我需要比较两个聚类，并确定两个聚类之间的分离。精确距离是取取所有对点P1-P2的最小欧氏距离，其中P1取自簇C1，P2取自簇C2。如果C1有X点，C2有Y点，那么这就需要X*Y距离测量。目前，我以一种需要X+Y测量的方式估计这个距离：找到星系团Ctr1的质心C1。在集群P2中找到与Ctr1最近的点Ctr1。(Y比较) 在P1中查找C1中与P2最接近的点。(X比较) 从P1到P2的距离是簇C1和C2之间距离的近似度量。这是真值的上限. 如果星系团大致是球形的，这是很好的工作。我的

浏览 4提问于2016-01-06得票数 8

回答已采纳

1回答

找出哪一行分配给了哪个集群-- kmeans聚类Matlab

、

idx4 = kmeans(A,4); silhouette(A,idx4,'Euclidean') 我有一个492 x 5148维的矩阵A。我使用上面的命令在matlab上做了kmeans聚类，并使用silhouette函数进行了绘制。它很漂亮地显示了4个簇。但是现在我想知道矩阵A的哪一行被分配给了哪个集群。怎么知道呢？

浏览 0提问于2014-10-04得票数 0

1回答

关于聚类方法的问题

、、、

最近，我开始学习数据挖掘中的聚类，我已经学习了序列聚类、层次聚类和k-means。我还读到了一篇关于k-means与其他两种聚类技术的区别的声明，称k-means不太擅长处理名义属性，但文本并没有解释这个point.So，我能看到的唯一区别是，对于K-means，我们将提前知道我们将确切地需要K个聚类，而我们不知道其他两种聚类方法需要多少个聚类。那么，谁能在这里给我一些关于为什么这样的陈述存在的想法，即k-means在处理名义属性的例子时会有这个问题，有没有办法克服这个问题？提前谢谢。

浏览 2提问于2010-11-04得票数 6

回答已采纳

2回答

Weka K-means中的理想聚类数

、、、

我正在使用Weka的SimpleKMeans函数对96000个术语(作为单词)进行聚类。Weka以期望聚类数为参数。因此，它将2赋给num。默认的簇数。我拥有的数据集是96000x641000稀疏数据集。一开始，我给了清华的簇号10000，但我认为这对于推荐过程来说太多了。有没有一种方法可以计算算法的簇数，或者找到理想的簇数？

浏览 0提问于2012-11-20得票数 1

回答已采纳

3回答

光线的聚类算法

、

我知道显然有针对点的聚类算法，但我有一个不同的方案。我有许多光线，它们的起点都在3D中的球体上，它们的方向向量都指向球体内部。一些光线指向点A，另一些指向点B，等等，带有一些噪声(即光线彼此不完全相交)。有没有一种聚类算法，可以让我根据射线指向的点对其进行聚类？我不知道点A，B等的位置，只知道射线的起始点和方向矢量。例如，是一个示例设置，但在2D中，我不知道开始时哪些光线是红色的或蓝色的。我如何将光线聚集成红色和蓝色？或者，我如何找到它们所指向的点的位置？我想到的一个解决方案是取两条光线对，找到这两条光线之间最近的点(在2D中，如果扩展光线，这是交点)，然后对每一对光线执行此操作(因此我将

浏览 0提问于2018-09-27得票数 2

1回答

如何在matlab中对sift特征进行k均值聚类？

、

我想在sift特性上执行k均值聚类，它是以509X508矩阵的形式出现的，我从mathworks获得了k均值集群的代码。但我不知道如何为算法提供输入。请帮忙..。

浏览 3提问于2014-06-03得票数 0

回答已采纳

2回答

如何在Python中从scipy中的链接/距离矩阵计算集群分配？

、、、

如果您在Python中的scipy中有此分层聚类调用： from scipy.cluster.hierarchy import linkage # dist_matrix is long form distance matrix linkage_matrix = linkage(squareform(dist_matrix), linkage_method) 那么，从这里开始对单个点的分配进行聚类的有效方法是什么？即长度为N的向量，其中N是点数，其中每个条目i是点i的簇数，给定给定阈值thresh在结果聚类上生成的簇数？需要说明的是:簇号是在对树应用阈值之后它所在的簇。在这种情况下，您将为它

浏览 5提问于2013-04-11得票数 24

回答已采纳

1回答

有办法对一组多元高斯分布进行聚类吗？

、、、、

我有一组多元(2D)高斯分布(用均值和方差表示)，并希望对这些分布进行聚类，以保持概率高斯信息(也许使用方差的重叠？)。我对聚类方法做了一些研究，发现DBSCAN聚类比K均值更合适，因为我不知道我希望找到多少集群。然而，DBSCAN使用欧氏距离epsilon值来寻找簇，而不是使用每个分布的方差。我也研究过高斯混合模型方法，但是它们将一组点拟合成一组K高斯簇，而不是将簇拟合成一组高斯分布。有没有人知道可能适合我的需求的其他集群方法？谢谢!

浏览 2提问于2016-09-24得票数 1

回答已采纳

1回答

K-均值聚类算法中的代价函数值

、、

如何使用mahout计算k均值聚类中的成本函数值？我正在参加Coursera的机器学习课。建议在k均值聚类过程中，若要对簇进行随机初始化，则在初始簇质心值不同的情况下，对聚类进行多次计算。然后，我们应该检查成本函数的价值，以确定哪一个迭代成本是最小的。请您建议如何计算Apache实现k-means集群的成本值？

浏览 2提问于2014-03-26得票数 3

回答已采纳

1回答

我可以使用分层聚类( numpy )来获取集群的特性吗？

、、、、

我试图在m*n数组上进行分层聚类。输入数组: 500 * 1000 (1000个特性，500个观测) 使用自定义pdist函数计算距离矩阵将此距离矩阵提供给链接函数:群集= sch.linkage(distanceMatrix，'single') 形成扁平簇: fc =sch.fcluster(簇，截止，‘距离’) 这给了我一些集群(大约80，使用的截止值为6.0)。现在，我也可以得到每个集群对应的1000个特征吗？(就像我们使用K均值聚类得到质心的特征一样)。

浏览 1提问于2013-02-14得票数 0

1回答

WEKA中的集群评估是什么？

、、、

当我们说我们正在评估WEKA框架中的集群时，我们是什么意思？聚类是一种对对象进行分组的无监督方法。当我们说我们想要评估结果是什么意思？此外，当我们说我们是在训练数据本身之上评估聚类时，这是什么意思？谢谢Abhishek S

浏览 6提问于2012-06-04得票数 7

回答已采纳

1回答

如何在过滤点云后提取特定的聚类？

、、

我正在使用点云库，并且在过滤一个点云并使用欧几里得聚类提取进行分割后，我正在提取第一个聚类的点。下面的代码是我认为可以用来提取聚类点的代码： std::vector<pcl::PointIndices> cluster_indices; typename pcl::search::KdTree<PointT>::Ptr tree (new pcl::search::KdTree<PointT>); tree->setInputCloud(out_cloud); pcl::EuclideanClusterExtraction<PointT>

浏览 2提问于2016-03-01得票数 0

2回答

在R commander的S_Dbw输出中，"Inf“是什么意思？

、

我已经运行了clv包，它由S_Dbw和SD有效性索引组成，用于在R commander中进行聚类。() 我用S_Dbw索引评估了DBSCAN，K-Means，Kohonen算法的聚类结果。但对于所有这三种算法，S_Dbw都是"Inf“。它是“无限”的意思吗？为什么我要面对"Inf“这个词。我的聚类结果有什么问题吗？一般情况下，什么时候S_Dbw索引结果是"Inf"？

浏览 0提问于2012-11-01得票数 2

回答已采纳

1回答

基于质心的聚类数目拟合

、、、

我正在使用MATLAB中的k-means。下面是我的代码： load cobat.txt; % read the file k=input('Enter a number: '); % determine the number of cluster isRand=0; % 0 -> sequeantial initialization % 1 -> random initialization [maxRow, maxCol]=size(cobat); if maxRow<=k, y=[m, 1:maxR

浏览 0提问于2013-05-05得票数 1

2回答

R中的距离聚类

、

我有一个整数向量，我想把它划分成簇，使任意两个簇之间的距离大于一个下界，而在任何一个簇内，两个元素之间的距离小于一个上界。例如，假设我们有以下向量： 1、4、5、6、9、29、32、36 并将上述下界和上界分别设为19和9，以下两个向量应是可能的结果： 1、4、5、6、9 29、32、36 感谢@flodel的评论，我意识到这种聚类可能是不可能的。所以我想修改一下这些问题：如果只设置之间的集群距离下限，那么可能的聚类方法是什么？如果我只在集群距离上限内添加，那么可能的聚类方法是什么？

浏览 0提问于2013-06-21得票数 3

回答已采纳

3回答

如何在R中使用k-means聚类技术获得与数据对应的簇号？

、、

我使用k-means聚类方法对数据进行聚类，如何在R中使用k-means聚类技术获得与数据对应的聚类数？以便获得每条记录属于哪个簇。示例12 32 13 => 1. 12,13 2. 32

浏览 1提问于2011-11-26得票数 3

1回答

如何将“其他”作为一组添加到聚类算法推理管道中

、、、、

我有几个聚类算法调优有5个集群。如果新的数据不属于最初的5个集群，我想要第6个集群，在第6个集群中。第6簇说其他类别由不属于5个聚类的所有数据点组成。 P.S.:-最初提供的任何数据都属于这5个集群。因此，假设数聚类为5的k均值算法。在推理过程中，我想添加第6簇，这样任何一个确实属于给定聚类的算法都可以根据阈值距离将其放入这个类别。我有文本数据。让我去哪种聚类算法，我应该使用dbscan，som等等。

浏览 0提问于2021-04-19得票数 0

2回答

传单MarkerCluster在缩放时停止自动重新聚类

、

当你放大和缩小时，标记簇会自动“重新聚类”，因为它再次计算聚类。当缩放更改时，是否有禁用自动重新群集的选项？

浏览 2提问于2019-02-21得票数 3

回答已采纳

1回答

如何防止在R中从clustMixType包中合并kproto函数中相同的原型

、、

我正在使用hepatitis dataset上的clustMixType包中的kproto()函数实现k-prototype集群。在获得聚类标签后，我使用Thresher包中的labelMatcher()函数将聚类标签与类标签进行匹配(在包含两个以上类的数据集上，需要进行标签匹配以计算准确性、敏感度、精确度和F1分数)。然而，由于kproto()函数在聚类过程中合并相等的原型，labelMatcher()由于具有较少的唯一簇标签而无法将类标签与簇标签进行匹配。我想知道是否可以防止在kproto()函数中合并相等的原型。提前谢谢。

浏览 53提问于2020-11-29得票数 0

回答已采纳

2回答

如何用特征重要性来解释文本聚类结果？(DBSCAN)

、、、、

有类似的和库，如和。但我找不到解决问题的办法。我有一组文档，我试图使用scikit-learn的对它们进行聚类。首先，我使用对文档进行矢量化。然后，我简单地对数据进行聚类并接收预测的标签。我的问题是:我如何解释集群形成的原因？我的意思是，假设有2个预测的簇(簇1和簇2)。(因为我们的输入数据是向量化文档，我们的特性是向量化的“单词”)对于创建集群1(或集群2)?非常重要。下面你可以找到我目前正在做的事情的一个最小的例子。这不是我想要达到的目标的一个极小的例子(因为我不知道如何实现)。 import numpy as np import pandas as pd from sklearn.cl

浏览 5提问于2020-09-17得票数 4

1回答

如何评估k-均值聚类中的距离？

、

我尝试使用k-表示集群(使用SQLserver + R)，我想知道我们如何才能正确地估计距离。例如，如果我们考虑欧几里得距离构成星系团的中心，如果对于相同的数据集，不同大小的簇会发生什么？大星系团中的“正常”点的距离要高于小星团中的“离群点”。所以：它与每个簇的中心/尺度欧氏距离相关吗？(然后将离群值视为具有最大标度距离的离群值) 还有其他的距离需要考虑吗？

浏览 0提问于2016-04-28得票数 2

回答已采纳

2回答

使用索引拆分Numpy数组

、、、

我有3D数组 pcar=[[xa ya za] [xb yb zb] . . [xn yn zn]] 和索引数组作为 [0,1,0....,2] 这给出了pcar中的行应该放在哪个集群中，这样我就可以用不同的颜色来绘制它。簇的最大值为3。输出应该是 clusters[0] = [[xa ya za], [xc yc zc], ...] clusters[1] = [[xb yb zb], ...] clusters[2] = [..., [xn yn zn]] 我想用不同颜色的每个聚类点在图中打印点。

浏览 0提问于2014-04-14得票数 1

回答已采纳

4回答

光学聚类算法如何获得最好的epsilon

、、、、

我正在执行一个需要将地理点聚在一起的项目。光学算法似乎是一个很好的解决方案。它只需要两个输入参数(MinPts和Epsilon)，它们分别是将它们视为一个簇所需的最小点数，以及用于比较两个点在同一簇中的距离值。我的问题是，由于点的极端多样性，我不能设置一个固定的epsilon。看看下面的图片。相同的点结构，但在不同的尺度下，会产生非常不同的结果。假设设置MinPts=2和epsilon =1公里。在左边，算法将创建两个簇(红色和蓝色)，但在右边，它将创建一个包含所有点(红色)的单个集群，但我想获得两个集群，甚至在右边。所以我的问题是:有什么方法可以动态地计算epsilon值来得

浏览 0提问于2012-06-04得票数 6

回答已采纳

1回答

团簇形状和大小

、、

我想问一下，星系团的形状和大小是如何在数学上决定的。例如，我已经读到K-均值聚类算法无法找到非凸形状的聚类，其中它只能成功地找到球形或凸型的聚类。同时，它也试图找到同样大小的星团。这与距离相似函数有关吗？如果是的话，什么样的相似函数才能更好地找到不同大小的非凸簇形状？如果不是，请告诉我是什么因素影响了集群的形状和大小。此外，基于概率的相似函数对于寻找不同大小的非凸簇形状是否有好处？请帮我找出答案，非常感谢。致以敬意，

浏览 2提问于2014-07-19得票数 1

回答已采纳

2回答

有效动态聚类

、、、、

我有一组来自单元间隔的数据点(即具有数值的一维数据集)。我在网上收到了一些额外的数据点，而且某些数据点的值可能会动态变化。我正在寻找一个理想的聚类算法，它可以有效地处理这些问题。我知道会处理新实例的添加，我认为只要稍加修改，它就可以处理动态实例值(即首先从相应的集群中获取已修改的实例，然后更新集群的平均值，最后将修改后的实例作为算法的输入，就像添加一个未见实例一样)。我对使用k均值算法的关注是，需要提供簇数作为输入。我知道它们优于其他聚类算法(GAs、MSTs、分层方法等)。时间和空间的复杂性。老实说，我不确定，但也许我可以使用上述算法之一。即使我的数据集比较大，一个维度的存在也让我感到奇

浏览 5提问于2014-07-08得票数 0

2回答

对于MySQL中的这种查询，最好的索引是什么？

、、

这是我的表格： create table page_relation ( relationid int primary key, userid int, pageid int, registryid int ); 让我们假设我想要得到一个用户的每个页面的所有注册表的次数。下面是我将要运行的查询： select count(*) as register_count from page_relation where userid = 10 group by pageid; 我需要帮助找出什么是最好的索引，以加快这个quind查询。到目前为止，我尝试在(

浏览 0提问于2015-12-09得票数 1

1回答

为什么需要在OpenCV分层聚类中指定聚类数

、、

如果我们知道输入数据中的聚类数，我们可以使用k-means算法。但是，如果我们不知道聚类的数量，那么我们可以选择使用分层聚类算法，该算法将根据给定的相似性阈值自动返回聚类的数量。层次聚类有两个选项，即聚集式(自下而上)或分离式(自上而下)，link。我想使用OpenCV分层聚类。然而，与实际的层次聚类不同，OpenCVs hierarchicalClustering算法将中心作为参数，并使用行数作为期望聚类的数目。对我来说，OpenCV hierarchicalClustering与k-means聚类是一样的。OpenCV中有没有其他函数可以根据给定的相似度阈值返回聚类的数量？ typed

浏览 40提问于2019-04-04得票数 1

1回答

用等尺寸的圆圈填充矩形蟒蛇

我有一个由宽度w、高度h和区域A定义的矩形边框。如何将等面积的n数的a封装在这个矩形内，使A-n*a最小。换句话说，我们如何计算在矩形内填充的等尺寸圆的最佳数目？我的用例：我正在使用kmeans聚类算法在地理边界框中对车辆进行聚类。为了设置kmeans算法的簇数，在应用kmeans算法之前，我尝试将圆填充作为一种导出簇数的方法。

浏览 5提问于2016-07-12得票数 1

回答已采纳

1回答

如何在单个图像中对颜色进行聚类？

、、

我在Opencv方面有一些经验。我想对图像的颜色进行聚类。例如，如果我对下面的图像进行聚类： i应该得到6个集群，每个集群名称作为它们的RGB值以及它们的位置(x，y)。是否有办法使用Opencv或任何开源包也可以做到这一点。我对Java和C很满意，如果你想要更多的细节，发表你的评论。

浏览 0提问于2011-11-30得票数 1

4回答

集群质量度量

、、、

Matlab是否提供了用于评估聚类方法的工具？(集群紧凑性和集群分离。...)或者有没有什么工具箱？

浏览 0提问于2012-04-29得票数 6

回答已采纳

1回答

在使用R进行K均值聚类后，检索最接近每个聚类质心的100个样本

、、、

我试图通过首先在R中执行K-means聚类，然后在每个代表性聚类中采样50-100个样本来减少输入数据大小，以便进行下游分类和特征选择。原始数据集被分割为80/20，然后80%进入K均值训练。我知道输入数据有2列标签和110列数值变量。从标签栏中，我知道有7种不同的药物治疗方法。同时，我测试了肘部方法，以找到聚类数的最佳K，它约为8。因此，我选择了10个，以便有更多的数据簇可供下游采样。现在我已经运行完了模型<- Kmeans()，输出列表让我有点不知道该怎么做。由于我只需缩放数值变量即可将其放入kmeans函数中，因此输出集群成员不再具有该处理标签。我可以通过将集群成员资格附加到

浏览 30提问于2020-11-02得票数 0

回答已采纳

1回答

如何从agnes中提取聚类中心并输入到kmeans中？

、

为了得到一个好的聚类结果，首先使用层次聚类方法，选择多个聚类，然后提取质心，然后将其作为K均值聚类算法重新运行，并预先指定中心。一个玩具示例： library(cluster) data(animals) ag.a <- agnes(agriculture, method = "ward") ag.2 <- cutree(ag.a, k = 2) 这会给我两个簇。我如何提取聚类中心的格式，然后将其放入kmeans()算法中，并将其重新应用于相同的数据？

浏览 4提问于2015-06-09得票数 0

1回答

K均值聚类

、、

我在Matlab上有个问题。我想使用kmeans聚类，然后得到质心的值和索引。例如，如果有一个5*5数组，我们就会对k=2和2个质心进行聚类。我怎样才能得到这些质心的值？我目前在matlab的工作深度，并希望实现一份研究论文。

浏览 0提问于2020-01-31得票数 -1

1回答

聚类算法

、、

我有稀疏向量，并且发现余弦相似度是度量相似度的有效方法。现在我想根据相似性对这些向量进行聚类。因此，有人能建议/推荐使用余弦相似性的聚类算法吗？ P.S.：我没有预先定义好的簇数，而是希望聚类算法自己来决定它。

浏览 0提问于2017-07-03得票数 0

回答已采纳

2回答

如何解释水母系数？

、、

我试图用sklearn.metrics.silhouette_score来确定k-方法的簇数。我已经为range(2,50)集群计算了它。如何解读这一点？我应该选择多少个集群？ 📷

浏览 0提问于2016-10-06得票数 1

回答已采纳

1回答

共识聚类:如何根据共识矩阵选择最终的聚类？

、

我一直在阅读这文章中关于协商一致聚类和协商一致矩阵的内容。我理解在对数据的某些部分进行重新采样和聚类H次之后，如何建立共识矩阵。我了解到，协商一致矩阵用于确定簇(k)的最佳数量，并允许生成一个很好的热图。我不明白的是，这个协商一致的矩阵是如何导致最终的聚类的。假设我有一个协商一致矩阵4*4 (因此我们有4项要聚类)，其中矩阵中0到1之间的每个值表示将项目i和j分配到同一个集群的次数，除以两个项被选择进行聚类的总次数。经过4次迭代80%的子样本(取自这里)，我们可以得到以下的一致性矩阵。我们跟踪了在获得这一协商一致矩阵的过程中形成的所有4组。我们如何根据这个共识矩阵选择最终的聚类？ 📷

浏览 0提问于2021-02-26得票数 0

2回答

按字符串相似度对搜索结果进行分组的最有效方法

、、、、

我正在开发一个sql server2008DB和asp.net mvc电子商务应用程序。我有不同的用户向DB提供他们的产品，我想比较具有相似名称的产品的价格。我知道字符串匹配是特定于领域的，但我仍然需要最好的通用解决方案。对搜索结果进行分组的最有效方法是什么？我应该使用Levenshtien距离算法递归地比较每条记录吗？我应该在数据库中完成，还是在代码中完成？有没有办法为这项任务实时实现SSIS模糊分组？有没有一种使用Sql server2008免费文本搜索的有效方法？编辑1:网络图分析怎么样？如果我将使用Levenshtien距离算法定义一个矩阵，我可以使用聚类算法(例如: claus

浏览 0提问于2012-03-29得票数 5

回答已采纳

1回答

增量聚类算法

、、、

我正在寻找一种增量聚类算法。所谓增量，我指的是从初始数据集开始构建集群的算法，它能够逐步吸收新的项/观察，将它们添加到现有的或新的集群中。聚类的最大数目是先验未知的，预计会随着时间的推移而增长，这意味着，在算法在初始数据集上运行之后，我期望收到属于以前从未见过的簇的观测结果。我对这类问题非常陌生，而聚类库中的所有聚类算法都只提供一次聚类的方法。 Scikit-learn库提供的唯一增量聚类算法是MiniBatchKMeans，它需要固定数量的集群，并且不适合我的用例。是否有增量聚类算法处理未知数量的集群？它们是否已经在某个地方实现了？非常感谢你！

浏览 0提问于2022-12-02得票数 2

2回答

记录链接问题

、、、

我正在构建匹配的ML.Project是为了匹配内部客户数据与外部客户data.Features名称，地址，城市，州和邮编。我们在数据集之间创建对，计算余弦相似度，然后将所有特征对的余弦值传递给高斯混合model.We，从2个聚类开始，期望一个匹配簇和一个不匹配cluster.But ML不构建一个匹配簇，并且匹配在两个簇中。在传递到ML之前，我使用了标准标量器和最小最大标量器，但是仍然没有得到一个清晰的标号和匹配的cluster.If。匹配可能是高余弦相似性在名称，地址，州，城市和邮编或名称，地址，邮编或任何其他combinations.We处理巨大的体积，所以我们使用Spark。如何

浏览 0提问于2019-05-24得票数 1

1回答

是否有可能将类似于小叶标记簇的小叶多角体聚在一起？

、

我是新的传单，并试图实现带有地理地图功能的传单。我想知道我们是否可以对边缘/多行进行聚类，类似于标记聚类。标记簇组仅为节点，而不是边缘。，你能给我指点吗？

浏览 2提问于2022-09-01得票数 1

2回答

基于度量/密度的聚类/分组

、、、

我有一个有限的点(云)，在它们上定义了一个度量。我想在这个云中找到集群的最大数量，这样： 1)一个星系团中任意两个点之间的最大距离小于给定的epsilon (const)。 2)每个簇中都有k (const)点。我查看了各种不同的聚类方法，并且对内部最大距离进行限制的聚类不是一个问题(基于密度)。2)限制和要求找到“簇的最大数量”。但似乎是有问题的。有关于有效解决方案的建议吗？谢谢你，A~

浏览 5提问于2013-02-15得票数 0

1回答

簇间距离和簇内距离

我已经找到了以下计算簇间距离和簇内距离的公式，我不太清楚它们是如何工作的。簇间距离上面的公式不应该有平方根吗？组间和组内：为什么会有从N+1开始的j索引？而不是从1到N2？哪一个是正确的？或者是否存在任何对等关系？或者我应该取质心之间的距离作为簇间距离？看起来很简单。簇内距离呢？我发现维基百科的公式更难理解。我需要计算这个距离，以适当的分组颜色，以创建一个减少颜色调色板，所以我认为这些距离越精确，更准确的分组(公式，而不是之间的中心距离之间的簇间距离)。矢量是三维的(RGB分量).

浏览 4提问于2014-08-24得票数 5

1回答

如何在R(软件包Hmisc)中用VARCLUS裁剪树状图

我想使用Hmisc包中的varclus()函数执行变量聚类。然而，如果我将树状图划分为10个变量簇，我不知道如何将变量簇放入表中。我以前用过 groups <- cutree(hclust(d), k=10) 来削减个体的树状图，但对变量不起作用。

浏览 17提问于2011-09-08得票数 3

1回答

星星之火KMeans集群:获取分配给集群的样本数

、、、、

我正在使用Spark进行kmeans聚类。我有一组向量，我想从这些向量中确定最有可能的簇中心。因此，我将在这个集合上运行kmeans聚类训练，并选择分配给它的向量数量最多的集群。因此，我需要知道训练后分配给每个集群的向量的数量(即KMeans.run(.))。但是我找不到从KMeanModel结果中检索这些信息的方法。我可能需要在所有训练向量上运行predict，并计数出现最多的标签。还有别的办法吗？谢谢

浏览 0提问于2015-11-03得票数 5

回答已采纳

1回答