Python中基于字符串/整数序列的聚类和距离/相异矩阵

文章/答案/技术大牛

发布

1回答

R:用离散小波变换比较新陈代谢模型之间的差异

、、、

每个模型都有一组代谢物及其在200个时间点的浓度。我正在对这些模型进行比较，以便根据它们的相似性对它们进行聚类。我遵循的一种方法是使用欧几里德距离对两个模型中的每个代谢物对进行成对比较。下面是我的数据的样子。这是一个。我计算了模型A中的Met1和模型B中的Met1的成对欧几里德距离

浏览 4提问于2015-08-01得票数 0

2回答

、、、、

我有顾客在店里逗留的数据。商店有4个区域:区域1、2、3和4。现在每隔2分钟，我就会根据他所在的区域得到他的10个数字。例如： 1-1-1-1-1-1-1-1-3-3-23-4-1-2-2-3-1-4-2-1-4 基本上，我预计大多数客户都在特定的区域中，并相应地进行了集群。因此，在第一个序列中，客户似乎更喜欢区域1，下一个区域3，最后一个类似于噪声。我给程序提供的只是一堆序列(未标记<

浏览 19提问于2019-09-09得票数 1

回答已采纳

1回答

在R中使用hclust进行加权观测频率聚类

、、、

我有一个包含500K观察值的大型矩阵，需要使用分层聚类进行聚类。由于大小，我没有计算距离矩阵的计算能力。为了克服这个问题，我选择聚合我的矩阵来合并那些相同的观察值，从而将我的矩阵减少到大约10K个观察值。我有这个聚合矩阵中每一行的频率。我现在需要将此频率作为权重合并到我的分层

浏览 15提问于2017-07-25得票数 1

2回答

给定每天只有事件ID标签(字母字符串)的事件序列，什么算法可以用来检测异常值序列？

、、、、

Sequence N: ["DEF", "AAA", "ZZ123", "YYZZZ45", "AABBCC"]在数据集中，每天都会有数千个这样的序列。补充问题：如何计算具有这样标签序列的序列之间的相似性(或差异)度量？如果是这样的话，我将如何在Python<e

浏览 0提问于2022-03-31得票数 1

回答已采纳

1回答

R:有没有一种方法可以只生成相异矩阵的热图并按聚类排序？

、、

我正在使用hclust在266个观察值中寻找集群。所有的变量都是绝对的。我正在尝试创建从daisy函数创建的相异矩阵的热图，以可视化集群内的相似性。我尝试使用data.matrix(data, metric="gower")输入相异矩阵，但当我这样做时，它会将矩阵视为数据集。函数heatmap.2 (可能有一些附加设置)在我使用的R版本中不可用。我的<

浏览 2提问于2019-09-09得票数 0

1回答

是否可以使用分块距离矩阵运行聚类算法？

、、

我有一个距离/相异矩阵(30K行，30K列)，它是在循环中计算并存储在ROM中的。Mydata<-read.csv("Mydata.csv")Results<-hclust(Mydata) 但是当我将矩阵转换成我可以在循环/分块中运行hclust算法吗？我

浏览 6提问于2018-10-28得票数 1

1回答

如何从diana (diana，cluster R package)输出中获得最优聚类数？

、

我正在尝试从集群软件包和diana方法(使用欧几里德相异度)获得的树状图中获得最佳集群数量，如下所示： mydatad <- diana(mydata, stand = FALSE)## use factoextra and ggplot2 for visualization 然后我尝试在NbClust中使用相异矩阵，对于相同的元素，dissim矩阵

浏览 69提问于2020-08-17得票数 2

3回答

用python进行文本数据聚类

、、、

目前，我正尝试使用python根据序列的相似性对序列列表进行聚类。DLFKFKDLD..。我已经尝试过使用，但是收敛性有点不可预测，我想谈谈这个问题。有人对这种情

浏览 3提问于2021-03-31得票数 1

回答已采纳

2回答

R中的聚类时间序列-K均值是否准确？

、、、、

我的数据集是由105个国家(行)的14年(列)相同指数的测量结果组成的。我想根据这些国家随时间变化的指数趋势对其进行聚类。我正在尝试使用DTW距离矩阵(dtw包)的层次聚类(hclust)和K Medoids (pam)。我还尝试了K均值，使用DTW距离矩阵作为函数kmeans的第一个参数。我也在考虑直接使用

浏览 7提问于2020-03-03得票数 0

1回答

如何使用相关性而不是R中的欧几里德距离来创建用于聚类的距离矩阵？

、

目标我所知道的：我见过使用R中的dist()函数使用欧几里德距离等创建距离矩阵的示例。我还看到相关性用于在变量(列)之间创建相异(或相似性度量)。我想使用相关性为数据中的行创建一个距离矩阵。因此，我希望使用每行之间的相关性，而不是dist()<

浏览 0提问于2015-05-18得票数 5

回答已采纳

4回答

基于Levenshtein距离的文本聚类

、、、、

我有一组(2k - 4k)的小字符串(3-6个字符)，我想对它们进行集群。由于我使用字符串，以前在上的答案告诉我，很适合用作字符串的距离函数。而且，由于我事先不知道集群的数量，所以是要走的路，而不是k-方法。虽然我得到了抽象形式的问题，但我不知道如何才能真正做到这一点。例如，MATLAB或R是使用自定义函数(Levenshtein距离)实现分层聚类的</

浏览 4提问于2014-02-02得票数 37

回答已采纳

1回答

内存问题:使用Gower距离和k-medoid对R中非常大的多尺度数据进行聚类分析

、、、

我有一个非常大的数据帧，名为'data‘，有350000行和138列，我想将其用于k-medoids聚类。：2)寻找最优聚类数4)使用Rtsne可视化聚类以可视化多维数据该代码适用于最多10000行的数据子集。因此，我的问题不是关于编

浏览 16提问于2017-07-25得票数 1

1回答

太多独特的序列

我有一个超过200万个序列的大型数据集，其中包括大约18万个独特的序列。我正在使用seqdist命令来测量距离，并且我最终还将尝试识别序列簇。下面是我得到的错误消息：有没有什么方法可以设置不同的最大序列数，或者其他一些解决方法？非常感谢您的提前！

浏览 4提问于2020-07-14得票数 1

2回答

CLARA和Gower用于混合数据类型

、、、、

我有相当大的数据(1140万条记录和9个变量)。变量由顺序、标称和连续数据类型混合组成。因此，我选择Gower方法来计算相异矩阵来处理混合数据类型。然而，数据的大小太大而无法计算。然后，我发现了另一个有趣的方法，称为CLARA，它使用样本来计算聚类，然后将聚类分配给其他数据点。问题是我找不到合适的度量来计算混合数据类型的距离。换句话说，在clar

浏览 1提问于2018-05-28得票数 0

1回答

将距离矩阵传递到学习中的k-均值聚类

、、、

按照的说法，k-指的是shape=的矩阵(n_samples，n_features)。但我提供了shape=(n_samples，n_samples)的距离矩阵，其中每个索引保存两个字符串之间的距离。时间序列已使用表示转换为字符串。当我用距离矩阵进行聚类时，它得到了很好的结果。可能的原因是什

浏览 2提问于2017-04-20得票数 5

1回答

如何在数据集(包括时间序列和离散点变量)上执行聚类？

、、、、

我试图对数据集进行聚类，包括时间序列(例如，传感器记录数秒)和离散值变量(例如年龄)。我已经尝试将原始变量和标准聚类结合起来，有效地解决了时间序列和离散值变量的问题。现在我想使用动态时间翘曲(DTW)距离来执行时间序列聚类，但我不确定如何将离散值变量合并起来。我的第一次尝试是计算时间序列变量的

浏览 6提问于2022-07-08得票数 0

4回答

在Python中对大约100,000个短字符串进行聚类

、、、

我想通过q-gram距离或简单的"bag距离“或Python中的Levenshtein距离来聚类大约100,000个短字符串。我计划填写一个距离矩阵(100,000选择2个比较)，然后使用进行分层聚类。但我还没上路就遇到了一些记忆问题。例如，距离矩阵对于numpy来说太大了。这看起来是合理的<

浏览 8提问于2010-11-22得票数 15

1回答

如何将余弦距离矩阵用于均值移位、DBSCAN和光学等聚类算法？

、、、、

我试图比较不同的聚类算法对我的文本数据。首先计算了余弦距离矩阵(余弦相似度).然后用这个距离矩阵进行K均值和层次聚类(ward和树状图).我想用距离矩阵来表示平均位移、DBSCAN和光学.下面是显示距离矩阵的代码的一部分。sklearn.metrics.pa

浏览 0提问于2020-03-05得票数 2

2回答

在R中执行基于向量的聚类的函数和数据格式

、、、、

我需要对数据行向量的相关性运行聚类，也就是说，我打算使用数据行之间变量向量之间的相关性，而不是使用单个变量作为聚类预测器变量。在R中是否有一个基于向量的聚类函数。如果不是这样，我需要手动完成，什么是正确的数据格式，以馈入一个函数，如cmeans或kmeans？假设我有m个变量和n个数据行，m个变量构成每个数据行的一个向量。所以我有一个n×n<e

浏览 0提问于2012-03-07得票数 0

1回答

使用预定义的距离/相似矩阵进行r数据聚类

、、、、

提出了一种新的文档相似度度量(一种计算文档间相似度/距离的方法)。我要知道这个措施有多好？聚类是一个基于距离/相似性度量的应用程序。因此，我决定在不同的数据聚类算法中评估所提出的测度的有效性。我读过关于的文章。假设我有一个文档集合D，它包含n文档，组织在k集群中。我想评估我的</e

浏览 0提问于2014-02-19得票数 0

回答已采纳

点击加载更多

R:用离散小波变换比较新陈代谢模型之间的差异