腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
TF-IDF
和
IDF_
的
取值
有
什么
不同
?
、
、
、
为
什么
矢量化语料库
的
值与通过
idf_
属性获得
的
值
不同
?
idf_
属性不应该只返回反向文档频率(IDF),就像它出现在矢量化语料库中一样吗?(1, 4) 0.44832087319911734 (1, 3) 0.44832087319911734 词汇表
和
idf
print(vectorizer.vocabulary_) 输出: {'this': 3, &
浏览 15
提问于2019-06-19
得票数 2
回答已采纳
2
回答
使用sklearn.feature_extraction.text.TfidfVectorizer
的
tf-idf
特征权重
、
、
本页:提到:----> 1 vectorizer.idf_ AttributeErr
浏览 179
提问于2014-05-22
得票数 31
回答已采纳
1
回答
从头开始使用Sklearn
的
Build (vectorizer.idf_)函数
、
、
、
,其中我
有
一个fit()方法,它将语料库转换为一个字典,以及一个名为idf()
的
函数,其中它将计算一个特定单词在给定语料库中出现
的
次数,以及一个transform()函数,其中我正在计算IDF值。term_freq = freq/(len(document)) # the number of times a word occured in a document
浏览 1
提问于2021-06-18
得票数 1
2
回答
应用scikit学习
和
手工计算
的
tf-下手矩阵值
的
差异
、
、
、
我正在使用scikit-learn来查找
tf-idf
值。D1 = "The sky is blue." Docs blue bright sky sun D1
tf-idf
0.0000000
tf-idf
0.0000000D2 0.0000000
tf-idf
0.0000000
tf-idf
浏览 0
提问于2014-06-04
得票数 8
1
回答
什么
是bm25,为
什么
elasticsearch在版本5
和
更高版本中选择此算法进行评分
谁能给我解释一下
什么
是bm-25,它与以前使用
的
tf-idf
有
什么
不同
,为
什么
5.0+版本中
的
Elasticsearch将他们
的
评分算法从
tf-idf
改为bm25。
浏览 2
提问于2017-05-05
得票数 0
1
回答
如何检查训练好
的
单词
和
TfidfVectorizer是否正确地应用于另一个语料库?
、
、
我正在尝试在一个集合上训练NLP模型,保存词汇
和
模型,然后将其应用于单独
的
验证集。代码正在运行,但我如何确保它如我所期望
的
那样工作?换句话说,我已经从训练集中保存了一个词汇
和
nmodel,然后我用保存
的
词汇创建了TFidfVectorizer,最后我在新
的
验证笔记上使用了"fit_transform“。这是否仅适用于经过训练
的
词汇
和
模型?它不是从验证集中“学习”了
什么
新东西吗?训练,然后加载词汇
和
模型,并应
浏览 0
提问于2019-08-20
得票数 1
1
回答
R
和
手工计算中
不同
的
tf-以色列国防军值
、
、
我在R中四处游玩,以找到
tf-idf
值。D1 = "The sky is blue." Docs blue bright sky sun
浏览 0
提问于2014-06-03
得票数 0
回答已采纳
2
回答
网站关键词,无限加载,面向对象
、
、
、
我正在创建来自
不同
网站
的
关键字,并将它们保存在bd中。if (empty($keywords)){$keywords = $ekeywords->Keys($webhtml);我使用<e
浏览 1
提问于2012-12-02
得票数 2
回答已采纳
1
回答
如何模拟tf-国防军火花
、
、
我正在尝试重写编写
的
代码(它是用Python编写
的
),但现在正在发火。tfidf = TfidfVectorizer() 我读过火花文档,是否
有
必要在
浏览 10
提问于2022-08-29
得票数 1
回答已采纳
1
回答
基于内容过滤
的
产品推荐系统
TF-IDF
、
是否可以使用
TF-IDF
实现产品推荐系统?除此之外,我可以在这个推荐系统中使用评分吗?
浏览 1
提问于2019-01-15
得票数 0
1
回答
tf-idf
向量空间中
的
ntc形式到底是
什么
?
、
、
我
有
一个文本文档
的
集合。我被要求在
tf-idf
向量空间
和
ntc形式中显示每个文档,然后在python中训练一个基于文档向量
的
svm模型。ntc在这里到底是
什么
意思?我发现它与
tf-idf
权重相同,只需一步归一化即所谓
的
“余弦归一化”。但是我找不到关于这件事
的
信息。我发现“余弦相似度”与“余弦归一化”
不同
。它们是一样
的
吗?我如何在python中创建这个向量呢?
浏览 2
提问于2021-01-07
得票数 0
2
回答
信息检索系统
TF-IDF
文档排序与二元独立排序模型
有
何
不同
?我无法区分它们。 我认为二进制独立模型
的
实际实现导致了
TF-IDF
。如果我错了,请帮帮我。
浏览 17
提问于2017-02-02
得票数 1
回答已采纳
1
回答
对于与某些文档完全相同
的
查询,Lucene TF下手不返回1。
、
我实现了一个程序,根据它
的
TFIDF相似度评分对文档进行排序,给用户输入。public boolean doSublinear = false; // Sublinear
tf-idf
public boolean doBoolean = false;相似性
的
精确文档,它不返回值1。如果我将用户输入设置为:Logic Based Knowledge Representation,我得到
的
输出
和
TFIDF为5.165(对于与输入
有
100%相似性
的</
浏览 2
提问于2015-02-16
得票数 0
回答已采纳
2
回答
基于实例学习带关键字
的
句子标记
、
我
有
一组(~50k元素)
的
小文本片段(通常是一个或两个句子),每个片段都带有从5k单词列表中选择
的
一组关键字。 我将如何去实现一个系统,从这个例子中学习,然后用相同
的
关键字来标记新句子?我不需要代码,我只是在寻找一些关于如何实现这一点
的
指针
和
方法/文件/可能
的
想法。
浏览 3
提问于2015-09-07
得票数 2
回答已采纳
1
回答
克米恩斯没有生产出肘部
、
、
、
我
有
一个大约300,000个唯一产品名称
的
数据框架,我正在尝试使用k均值将相似的名称聚在一起。我使用sklearn
的
tfidfvectorizer将名称矢量化,并将其转换为
tf-idf
矩阵。接下来,我在
tf-idf
矩阵上运行k均值,簇
的
数量从5到25。然后我绘制了每#个集群
的
惯性图。 根据情节,我处理问题
的
方法是错误
的
吗?如果没有截然
不同
的
肘部,
有
什么
要注意<em
浏览 1
提问于2016-08-17
得票数 0
1
回答
如何使用termVectorComponent在solr中创建标签云
、
、
我已经读得够多了,但我在网上找不到任何适合新手
的
例子。我想要做
的
是;<field name="content" stored="true" indexed="true" multiValued="true" termVectors="true"/>当我输入以下查询时 localhost&
浏览 0
提问于2012-11-01
得票数 0
回答已采纳
1
回答
计算字符串
的
tf-国防军
、
、
我
有
两个文件doc1.txt
和
doc2.txt。place to visit terms doc1
tf-idf
tf-idf
tf-idf
浏览 7
提问于2014-06-10
得票数 0
2
回答
如何在新闻文章中使用gensim for lda?
、
、
我正在尝试从一个庞大
的
新闻文章语料库中检索主题列表,我计划使用gensim使用LDA来提取每个文档
的
主题分布。我想知道lda
的
gensim实现所需
的
处理文章
的
格式,以及如何将原始文章转换为该格式。我在维基百科上看到了关于使用lda
的
链接,但我发现语料库处于已处理状态,其格式在任何地方都没有提到
浏览 5
提问于2012-04-02
得票数 3
回答已采纳
0
回答
gensim
的
LSA模型使用
tf-idf
的
哪个公式?
、
、
、
有
许多
不同
的
方法可以计算tf
和
idf。我想知道gensim在其LSA模型中使用
的
是哪个公式。我一直在研究它
的
源代码lsimodel.py,但我不清楚文档术语矩阵是在哪里创建
的
(可能是因为内存优化)。在中,我看到文档术语矩阵
的
每个单元格都是该单词在该文档中
的
对数频率除以该单词
的
熵:idf(w, D) = 1 / (-Σ_D p(w) l
浏览 10
提问于2017-12-02
得票数 0
回答已采纳
1
回答
如何计算多类型数据
的
余弦相似度?
、
、
我
有
一个使用余弦相似度
的
约束。如果变量(属性、列)
的
类型
不同
,并以以下形式出现:如何进行矢量化以应用余弦相似度?对于字符串,我可以使用简单
的
tf-idf
。但是对于数字
和
布尔值呢?如何将这些结合起来呢?我
的
想法是向量应该是1+1+1+20长度。但是,仅仅将记录
的
数字转换为矢量中
的
系数,并将它们与字符串
的
<em
浏览 5
提问于2013-03-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
RVVP和KVVRP有什么不同
cmd命令和dos命令有什么不同?
cb认证和ce认证有什么不同
凶块链和区块链有什么不同?
华为和华三这对兄弟有什么不同
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券