如何根据上下文对相似类型的句子进行聚类，并从中提取关键字

、、、、

我想根据句子的上下文对句子进行聚类，并从相似的上下文句子中提取共同的关键字。例如1.我要回家2.我正在吃饭3.他明天要回家4.他在餐馆现有的API会很有帮助，就像使用IBM Watson一样

浏览 2提问于2017-01-07得票数 1

回答已采纳

5回答

如何使用BERT对相似句子进行聚类

、、、、

对于ElMo，FastText和Word2Vec，我平均句子中的单词嵌入，并使用HDBSCAN/KMeans聚类来对相似的句子进行分组。在这篇简短的文章中可以看到一个很好的实现示例：http://ai.intelligentonlinetools.com/ml/text-clustering-word-embedding-machi

浏览 367提问于2019-04-11得票数 23

回答已采纳

1回答

如何使用聚类对意图相似的句子进行分组？

、、、、

我正试图用Python开发一个程序，它可以处理原始聊天数据，并对意图相似的句子进行聚类，这样它们就可以作为训练示例来构建一个新的聊天机器人。其目标是使其尽可能快速和自动(即不需要手动输入参数)。对于特征提取，我标记每个句子，停止其单词，并使用Sklearn的TfidfVectorizer对其进行矢量化。然后我用Sklearn的DBSCAN对这些

浏览 2提问于2017-12-14得票数 0

回答已采纳

1回答

根据使用python或SQL的类似句子对行进行排序？

、、、、

如何根据行值对数据帧进行排序。也就是说，我有一行包含文本数据，想要提供基于相似性的排名吗？下面是样本数据集，原始数据集包含约100000条记录。关于，请参考这个问题有一些方法进行了测试，对相似句子进行聚类，小数据集，请参考以上所附链接。输出，我们需要聚类相似的句子，不管长度。示例-使用python

浏览 13提问于2022-03-07得票数 1

1回答

doc2vec中的文档长度

、、、

我有100个句子，我想根据相似性进行聚类。我使用doc2vec将句子向量化为20维向量，并应用kmeans对它们进行聚类。我还没有得到想要的结果。我已经读到doc2vec只在大型数据集上表现良好。我想知道是否增加每个数据样本的长度，是否会弥补样本数量少的问题，并帮助模型更好地进行训练？例如，如果我的句

浏览 0提问于2019-08-26得票数 0

1回答

黑白图像文档聚类

、、、、

我有一些黑白文档(图像扫描)，并希望根据它们的布局对它们进行聚类。为了使事情更具体，假设我有以下三张图片，前两张更有可能落入同一个集群，而不是第三张图像，因为前两张的布局比较相似。我的问题是，对文档进行聚类的最佳方法是什么？现在我有几个初步的方法：用主成分分析和几种聚类方法(K

浏览 0提问于2017-11-23得票数 5

2回答

怎样才能得到歌曲相似性的客观度量？

、、

我浏览了ML项目的想法，发现了一个有趣的想法(只是问题陈述)：用歌词检测两首歌是否相似。我发现这是一个有趣的想法，但我不太确定我将如何得到一个分数的相似歌曲。对于我的数据集，我有类型，艺术家和歌词的特点。考虑到一开始就没有这样的“训练数据”，什么是评估相似性的潜在方法。我遇到过一些嵌入词之类的东西，但它们的作用对我来说并不十分

浏览 0提问于2019-04-21得票数 1

2回答

从相似矩阵执行聚类

、、

我有一个歌曲列表，我为每个歌曲提取了一个特征向量。我计算了每个向量之间的相似度分数，并将其存储在一个相似矩阵中。我想根据这个相似矩阵对歌曲进行聚类，以尝试识别集群或某种类型的歌曲。我使用networkx包从相似矩阵中创建了一个力有向图，使用了弹簧布局。然后，我将KMeans聚类用于该图中节点的

浏览 0提问于2021-04-15得票数 1

1回答

如何聚成n克？

、

我只想知道如何根据它们的语义对n-图进行聚类。就像通过利用分布假设将语义相似的n-图聚在一起，表示相似的单词出现在相似的上下文中。

浏览 0提问于2019-10-13得票数 3

1回答

如何判断两个网页内容是否相似？

、、、、

给定两个html源，我想首先使用之类的东西从中提取主要内容。有没有 --我特别想找Python/Javascript的？一旦我有了两个提取的内容，我想返回一个介于0和1之间的分数，表示它们有多相似，例如，来自CNN和BBC的关于同一主题的新闻文章会有更高的相似性分数，因为它们在相同的主题上，或者Amazon.com和Walmart.com上关于相同产品的

浏览 0提问于2012-04-06得票数 3

回答已采纳

3回答

Python:检查句子中是否包含列表中的任何单词(带有模糊匹配)

、、

我想从给定一个list_of_keywords的句子中提取关键字。我设法提取出准确的单词是否可以提取与给定的list_of_keywords具有良好相似性的单词，即两个单词之间的余弦相似度大于0.8 例如，给定列表中的<em

浏览 3提问于2019-02-21得票数 2

回答已采纳

1回答

如何高效地查找相似文档

、、、、

我有很多使用聚类算法进行聚类的文档。在聚类算法中，每个文档可以属于一个以上的聚类。我已经创建了一个存储document-cluster赋值的表和另一个存储cluster-document信息的表。我首先检索它所属的集群列表(从document-cluster表中)，然后对于document-cluster<em

浏览 0提问于2015-05-05得票数 0

1回答

基于语义相似度的分层聚类算法

、、

我对整个集群和其他方面都很陌生，所以我有点迷失在编程的最后一步。我正在做一个基于主题语义相似性的项目，该项目使用层次化算法对学生进行聚类。如何用python编写代码，根据主题之间的

浏览 5提问于2022-02-15得票数 -1

1回答

如何使用Word共现和聚类的概念来实现POS标签？

、

POS标签，提取句子中一个单词的语法角色。根据我的研究，词共现是一种分析词发生的技术，它可以用来构造一个图，其中节点是词，它们之间的权重是它们的共现权。我想知道是否有一种方法可以将聚类算法应用到这个图形上，根据它们的语法角色对单词进行分组？我的意思是我想和POS标签师做同样的事。其主要思想是，在构造共现图之

浏览 0提问于2021-01-14得票数 1

1回答

为什么降维能提高电影海报的无监督聚类性能？

、、、、

我正在写一篇论文，试图根据电影海报的视觉特征对它们进行聚类。我们的目标是将看起来类似的电影海报聚集在一起。为了从数量上描述海报的“外观”，我使用预先训练过的VGG16 CNN为所有海报提取了25088个特征。这些特性存储在一个带有尺寸的矩阵中(#电影海报，25088)。根据提取的特征，我想：创建类似电影海报的</e

浏览 1提问于2018-10-30得票数 0

1回答

对具有数字序列的不同长度的行进行分层聚类

、、

我想在我的一个项目中做分层聚类。我最初的问题是，我有一个巨大的图，我在上面迭代了大量的路径，并报告了以下格式的路径节点。因此，下面示例中的每个数字表示一个图形节点，行表示一条路径。现在，我想根据共享节点的数量对这些路径进行聚类，以此来分隔相似类型的路径。1210, 158,

浏览 0提问于2016-04-25得票数 0

2回答

对相似文档进行分组

、、

这个问题涉及到在信息检索中对相似文档进行分组/聚类。我有一套文档，D1，D2，..Dn。对于每个文档，Di，我还有一组关键字，Di_k1，Di_k2，...，Di_km。两个文档Di和Dj之间的相似度由涉及相关关键字的函数给出，即相似度(Di，Dj) = f(Di_K，Dj_K)。现在，我希望将这些文档中的每个文档放入一组组/

浏览 0提问于2011-05-20得票数 0

1回答

相似矩阵/层次聚集聚类火花

、、、、

我试图实现一种基于相似性阈值的聚类方法。其思想是为被认为相似的事物定义一个阈值，并得到不同的集群。我所拥有的数据包含3亿个条目。我一直在找Apache做这件事。然而，几个小时后，我有更多的问题，而不是答案： 1-所有在星火中实现的方法()都是基于向量的相似性，使得其他类型的对象难以扩展。在我的例子中，我有一组对象，我想扩展定义两个独立对象是<em

浏览 1提问于2017-10-29得票数 1

2回答

如何在字符串对象上运行K-均值算法？

、、、、

我正在做一个项目，在这个项目中，我需要根据句子的相似程度对句子进行分组。例如，需要将这些句子分组为一个组：标题不断进入，所以我可能需要安排和修改集群的动态。目前，我正在使用Monge算法来识别两个字符串有多

浏览 3提问于2013-01-24得票数 2

回答已采纳

2回答

关于自动、基于学习的文档摘要，有哪些好的资源可供学习？

、

文档摘要可以通过从源文档中提取文本来完成，或者您可以使用学习算法来解释文档所传达的内容，然后使用语言生成技术(就像人类一样)生成摘要。对于后一种方法，是否有算法或已有的研究工作？一般来说，有哪些关于文档摘要技术的好资源可供学习？

浏览 3提问于2014-08-31得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用BERT对相似句子进行聚类

如何使用聚类对意图相似的句子进行分组？

根据使用python或SQL的类似句子对行进行排序？

doc2vec中的文档长度

黑白图像文档聚类

怎样才能得到歌曲相似性的客观度量？

从相似矩阵执行聚类

如何聚成n克？

如何判断两个网页内容是否相似？

Python:检查句子中是否包含列表中的任何单词(带有模糊匹配)

如何高效地查找相似文档

基于语义相似度的分层聚类算法

如何使用Word共现和聚类的概念来实现POS标签？

为什么降维能提高电影海报的无监督聚类性能？

对具有数字序列的不同长度的行进行分层聚类

对相似文档进行分组

相似矩阵/层次聚集聚类火花

如何在字符串对象上运行K-均值算法？

关于自动、基于学习的文档摘要，有哪些好的资源可供学习？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐