腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
将
TF-IDF
结果
导入
Carrot2
我喜欢
Carrot2
的工作方式。目前我主要使用XML
导入
。我想
导入
包含
TF-IDF
结果
的XML文件,而不是代码片段。这将允许我按照自己的意愿准备数据。我尝试在代码片段中传递
TF-IDF
关键字(没有度量),但它以某种方式起作用了。不幸的是,
Carrot2
再次对我的数据执行
TF-IDF
,
结果
一般。如果我可以将我的关键字与重要性度量一起传递,然后只使用
Carrot2
对
结果
进行微调,那就太好了。 我在API
浏览 16
提问于2020-01-16
得票数 0
回答已采纳
1
回答
Python Elasticsearch和胡萝卜
、
、
我安装了
carrot2
( )。 之后如何调用python中的胡萝卜集群模块?
浏览 0
提问于2014-04-13
得票数 1
回答已采纳
3
回答
未找到插件carrot2+elasticsearch的
结果
、
我有旧版本1.3.4的Elasticsearch,并安装了插件
Carrot2
集群插件1.7.0。我
将
Elasticsearch升级到1.5.0版本,并将插件
Carrot2
集群插件升级到1.8.0。现在我正在尝试使用Elasticsearch的plugin head在插件
carrot2
中创建集群。
carrot2
文档中的示例中描述的
结果
类似。但是当我尝试在插件
carrot2
中创建集群时,我得到了“找不到
结果
”(我尝试了两个不同的索引,
结果
浏览 5
提问于2015-04-08
得票数 0
1
回答
什么是solr集群组件
、
我刚刚浏览了solr wiki页面以进行集群。但是我不知道使用集群的好处是什么。谁能告诉我什么是clusering,它在索引和搜索中的用途。
浏览 2
提问于2011-06-29
得票数 5
回答已采纳
1
回答
中文文本的
TF-IDF
算法
、
、
我正在对中文文本进行
TF-IDF
,并搜索文本中最常用的10个单词。有没有办法只获取有意义的单词?
浏览 2
提问于2020-07-23
得票数 1
1
回答
如何
将
TF-IDF
矩阵转换为包含前10个单词的整体字典
、
、
、
、
我正在尝试通过几个文本获得单词的
tf-idf
总分。我遵循这里看到的手动计算
tf-idf
的方法: 用于显示
tf-idf
结果
的字典可以在这里看到: [{'a': 0.09902102579427789, 'for': 0.09902102579427789children': 0.11552453009332421, 'fire'
浏览 14
提问于2020-02-23
得票数 1
1
回答
Carrot2
中的集群标签存储
集群标签在
Carrot2
中的存储位置?存储标签后,
将
生成FoamTree和Circle
结果
,但是这些标签存储在哪里呢?我如何使用一些代码等来获取它们呢?
浏览 4
提问于2014-09-17
得票数 0
1
回答
可以
将
solr的子文档集成到胡萝卜工作台中吗?
、
、
、
、
因此,当我们单击第一个集群时,我们得到的
结果
是“我们在Python方面非常熟练”,而对于第二个集群,我们得到的
结果
是“我们在Java方面非常熟练”。 有办法在胡萝卜工作台上复制这样的结构吗?
浏览 4
提问于2020-12-21
得票数 0
回答已采纳
1
回答
使用
tf-idf
时使用R和tm的新数据
、
、
、
在那之后,我使用
tf-idf
构建了他们的DTM,我可以将其用于所有类型的分类聚类算法。到现在为止还好。 现在,让我们假设我有一个新文档,并尝试计算它到语料库中文档的距离。但是我不知道如何计算新文档的
tf-idf
向量,因为
tf-idf
依赖于整个集合,而不是单个文档。
将
新文档添加到语料库并重新计算其
tf-idf
DTM不能正常工作:不仅效率低下,而且每个新文档都会碰上已经看到的文档的值,这将改变我可能将它们作为训练集运行的任何聚类分类算法的
结果
。因此,我的问题是,如何使用R和tm计算新文档的
浏览 15
提问于2017-07-03
得票数 0
1
回答
无法
将
Carrot2
导入
到Eclipse
、
我想使用
Carrot2
作为一个库来构建一个新软件。但是当我构建一个新项目时,没有“从现有源代码创建项目”。我可以知道如何使用
Carrot2
作为库吗? 谢谢!
浏览 3
提问于2014-06-05
得票数 0
2
回答
tf-idf
:使用它是否有助于对共享术语的文档的权重高于不共享术语的文档?
、
我很好奇,如果只使用
tf-idf
对我的语料库中的文档进行排名,是否也有助于对具有多个搜索词的文档进行加权,而不是只有一个搜索词的文档。例如: Search =“波兰泉水”理论上,如果一个文档包含100次“波兰队”而“水”为0次,上面的查询(使用传统的
tf-idf
)会使文档权重更高吗?我知道这一切都取决于“波兰”和“水”的
tf-idf
值,但理论上讲,如果文档中有多个术语,该算法是否有助于
将
文档放在
结果
的顶部,或者它是否真的独立于术语?
浏览 5
提问于2010-10-05
得票数 1
1
回答
Liferay的SOLR插件是做什么用的?
、
、
、
、
我正在使用Liferay 6.1,我正在尝试学习如何
将
搜索功能整合到Liferay Portal中。
浏览 1
提问于2012-06-15
得票数 2
回答已采纳
2
回答
Sklearn和gensim的
TF-IDF
实现
、
、
我一直在尝试确定一组文档之间的相似度,我正在使用的方法之一是与
TF-IDF
结果
的余弦相似度。Sklearn和gensim使用原始计数作为TF,并对
结果
向量应用L2范数。它们最终是否会提供更好的
结果
,用于集群或其他目的? 编辑(这样问题就更清楚了):规范化最终
结果
与规范化乞讨时的术语计数有什么不同?
浏览 1
提问于2017-05-22
得票数 1
1
回答
更新值的机器学习算法
、
我有一个描述列表,我必须理解其中的类别,并在单独的列中给出输入。在一段时间内,我创建了一个关键字列表,如果这些关键字出现在描述中,就会指向某个类别。我应该使用哪种机器学习算法来读取关键字并自动更新类别?此外,它还会随着时间的推移而学习。
浏览 0
提问于2018-05-17
得票数 0
0
回答
使用
Carrot2
的Solr
、
我正在尝试
将
Solr与
Carrot2
集群引擎集成。我成功地通过Solr进行了集群,链接如下:
结果
集群我得到了与techproducts示例中提到的相同的输出。
浏览 8
提问于2018-07-17
得票数 2
1
回答
文本分类+ NLP +数据挖掘+数据科学:在应用
tf-idf
之前,我应该停止单词删除和词干提取吗?
、
、
、
、
我必须根据每个事件的名称和描述
将
每个事件分类为一个类别。我应该在应用
tf-idf
之前停止单词删除和词干提取,还是应该只在原始文本上应用
tf-idf
?
浏览 0
提问于2018-10-04
得票数 1
1
回答
使用
Carrot2
API与Lingo3GClusteringAlgorithm时数据聚类中的问题
在使用
Carrot2
API进行聚类后,使用Lingo3gClusteringAlgorithm进行一次。获得集群
结果
的MAC操作系统用户27,Linux用户5,最后所有的用户都在其他主题集群。因此,为了
将
Windows作为一个单独的集群,我需要配置哪些集群属性。目前只使用具有值的"combined-cluster-score-balance":1.0。任何帮助都是非常感谢的。
浏览 3
提问于2016-12-01
得票数 1
1
回答
使用XML路径模式
将
兄弟姐妹分配给其正确的父级。
、
、
、
我使用PATH模式在Server中生成XML文件,但无法
将
兄弟关系分配给其正确的父级。VALUES('1','2','apple2'),('3','1','carrot1'), ('3','2','
浏览 3
提问于2020-06-11
得票数 0
回答已采纳
2
回答
在pyspark中计算数据帧中所有行之间的余弦相似度
、
、
、
我有一个数据集,其中包含工人的人口统计信息,如年龄,性别,地址等,以及他们的工作地点。我从数据集创建了一个RDD,并将其转换为DataFrame。 |----------|----------------| |----------|----------------| | | Gandhinagar |
浏览 3
提问于2017-10-16
得票数 12
回答已采纳
1
回答
基于gensim的潜在语义索引
、
、
、
、
为了使用gensim中的潜在语义索引方法,我想从一个小的“分类”示例开始,比如:id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt')lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400)我的问题
浏览 5
提问于2017-05-09
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券