腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
按
文档
提取
tf-idf
to
特征
的
正确
方法
是什么
?
、
假设我们有一个来自10K个相当小
的
文档
的
语料库
的
tf-idf
加权dfm。
提取
顶级
特征
的
quanteda
方法
是什么
,即
文档
的
最大
tf-IDF
值?我确实希望在计算
tf-idf
时将整个语料库作为参考。一些类似的东西 topfeatures(some_dfm_tf_idf, n =3, decreasing = TRUE, groups ="
浏览 26
提问于2019-12-03
得票数 0
回答已采纳
2
回答
在python
的
gensim工具中,
TF-IDF
是如何实现
的
?
、
、
、
从我从网上找到
的
文档
中,我计算出了用于确定语料库中术语
的
词频和反向
文档
频率权重
的
表达式我正在研究gensim中提到
的
tf-idf
的
实现。
文档
中给出
的
示例如下>>> print tfidf[doc_bow] # step 2 -- u
浏览 7
提问于2012-02-28
得票数 4
1
回答
使用quanteda计算术语特定术语和反向术语frq
、
remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE) %>%dfm() 如何计算所有
文档
的
tf,并将其乘以特定于术语
的
idf,并将结果作为dfm再次得到?
浏览 27
提问于2020-08-19
得票数 1
回答已采纳
1
回答
语料库中单类
文档
的
“组合”
TF-IDF
分数
、
、
、
假设我计算了一个
文档
语料库
的
TF-IDF
分数,得到了
TF-IDF
特征
矩阵。如果这些
文档
的
子集属于某个类,我是否可以以某种方式“组合”该子集
的
分数,以便以有意义
的
方式获得该类中每个
特征
的
单个值?例如,如果我有一个包含1000个
文档
的
语料库,而corpus[0:200]属于A类,那么我是否可以获取
tf-idf
分数
的
第0-200行,并
浏览 0
提问于2015-09-02
得票数 3
1
回答
除了
tf-idf
用于聚类
的
其他
文档
特性?
、
、
用于聚类文本
文档
的
文档
的
其他
特征
表示
是什么
?我所知道
的
唯一表示是
tf-idf
。还有其他
的
吗?
浏览 6
提问于2013-07-20
得票数 1
1
回答
如何分析非结构化文本?
、
、
我使用
TF-IDF
来影响权重,这可以帮助我构建字典。但是我
的
模型不够好,因为我有非结构化
的
文本。 对
TF-IDF
类似的算法有什么建议吗?
浏览 6
提问于2017-02-22
得票数 1
回答已采纳
1
回答
具有大或小语料库
的
Tf-idf
“在大型语料库中使用
Tf-Idf
方法
的
一个本质是,使用
的
语料库越大,术语
的
唯一权重就越多。这是因为语料库中
文档
大小或
文档
长度
的
增加使得语料库中两个术语
的
权重值重复
的
概率较低。也就是说,
Tf-Idf
方案中
的
权重可以呈现权重
的
指纹。在小语料库中,
Tf-Idf
不能造成这种差异,因为有巨大
的
潜力找到具有相同权重
的
两个术
浏览 2
提问于2017-07-01
得票数 6
2
回答
使用tfidf作为功能
、
、
、
、
我想使用n-gram对两组
文档
进行分类。一种
方法
是使用tfidf
提取
每个
文档
的
重要单词,然后生成如下所示
的
csv文件: document, ngram1, ngram2, ngram3, ..., label 1, 0.0, 0.0, 0.0但由于
文档
数量
的
限制,文件将变得庞大而稀疏。另一种
方法
是合并每个组中
的
所有
文档
并
提取
ngram。在此之后,我可以计算每个ngram在每个<em
浏览 30
提问于2021-02-08
得票数 0
1
回答
如何使用scikit-学习从文本中
提取
特征
时,我只有正面和无标签
的
数据?
、
、
、
、
我在找类似这个
的
东西但我没有正面和负面的例子,我有一些正面的例子和一堆未标注
的
数据,这些数据将包含一些正面的例子,但大部分是负面的。我计划在管道中使用这个
方法
将文本数据转换为向量,
浏览 0
提问于2020-12-12
得票数 0
1
回答
TfidfVectorizer中'max_features‘
的
用法
是什么
、
我从中得到
的
理解是,如果max_feature =n,这意味着它是根据
Tf-IDF
值选择前n个
特征
。我浏览了scikit learn上
的
TfidfVectorizer
文档
,但没有
正确
地理解它。
浏览 0
提问于2018-07-06
得票数 0
1
回答
通过Lucene将
文档
表示为向量。
、
我想要为SVM文本分类构建
文档
向量。我已经将我
的
文档
索引为2个正
文档
和负
文档
。并用IG
方法
选择
特征
空间。谢谢!致以最好
的
敬意!
浏览 1
提问于2011-07-30
得票数 1
3
回答
scikit学习TfidfVectorizer
的
意义?
、
、
、
、
我读到了关于scikit learn
的
TfidfVectorizer
的
文章,我不明白这个
方法
的
输出
是什么
,例如:[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0. 0.
浏览 0
提问于2014-09-18
得票数 25
回答已采纳
1
回答
二值
特征
提取
、
、
我是一个在自然语言处理
的
特征
提取
方面的初学者。我想知道如何使用hashmap来
提取
文本
的
特征
。如果每个
特征
都是hashmap中
的
"key“,并且它
的
值是" value”(所有
特征
都是二进制
的
,0或1),这是否意味着我需要n个hashmap (n是文本中
的
单词数)?因为对于每个单词,我都需要
提取
特征
。 我说
的
对
浏览 3
提问于2013-03-07
得票数 1
2
回答
自然语言处理.文本分类
的
特征
、
、
、
到目前为止,我用于训练支持向量机
的
特征
向量是由训练文本中出现
的
单元图和二进制图
的
TF-下手统计数据组成
的
。但是,我测试经过训练
的
支持向量机模型
的
结果并不准确,所以有人能给我关于我
的
程序
的
反馈吗?我正在按照这些步骤对文本进行分类: 计算每篇训练课文中每张字元/字元出现
的
次数,以及在训练课文中出现
的
浏览 1
提问于2013-06-07
得票数 5
回答已采纳
2
回答
如何在新闻文章中使用gensim for lda?
、
、
我正在尝试从一个庞大
的
新闻文章语料库中检索主题列表,我计划使用gensim使用LDA来
提取
每个
文档
的
主题分布。我想知道lda
的
gensim实现所需
的
处理文章
的
格式,以及如何将原始文章转换为该格式。我在维基百科上看到了关于使用lda
的
链接,但我发现语料库处于已处理状态,其格式在任何地方都没有提到
浏览 5
提问于2012-04-02
得票数 3
回答已采纳
2
回答
提高文本语料库
的
F1评分
、
我正在使用文本语料库专业电子邮件进行分类,我已经完成了所有基本
的
预处理步骤(词干、删除停止词、标点符号、低频单词、单词长度……)这给了我F1
的
分数= 0.6。我想知道下一步
是什么
(S)来提高我
的
成绩,我想到了“堆叠”(使用多个量词),或者删除不同类(4种不同类型
的
文本)中常见
的
单词不确定这个解决方案。编辑: 我尝试了15个不同
的
分类器,其中最好
的
分类器是梯度增强(gbm ),F1-分数=0.6002159。这些
特征
是通过
Tf-
浏览 0
提问于2016-06-28
得票数 2
2
回答
NLP & ML短语
提取
、
、
、
、
我可以使用什么ML算法来训练给定句子中
的
动作短语。cricket Label2: wash clothes 我有一个大约2k个句子和相应
的
动作短语(标签)
的
数据,需要根据它们预测另一组句子。使用哪个Algo来做同样
的
事情?(最好是python)
浏览 0
提问于2017-02-04
得票数 0
1
回答
文本挖掘中
的
特征
选择和
文档
相似度估计
、
、
我正在从事Java中
的
WEKA库
的
一个文本挖掘项目。在预处理步骤中,我应用了StringToWordVector滤波器。在这个过滤器中,我设置了几个选项,如标记化、停止词删除、词干
提取
和
TF-IDF
加权方案。 我有一些问题: 1-是否有必要在每个文本挖掘项目中进行
特征
选择过程?2-是否有必要估计
文档
的
相似度,例如:使用余弦相似度?或者这两个选项是可选
的
?是StringToWordVector filter做了其中
的
一些工作吗?
浏览 2
提问于2017-05-20
得票数 1
1
回答
有没有一种算法来确定文本与主题
的
相关性?
、
、
、
我想知道什么可以用来确定页面与游戏、电影等主题
的
相关性。 在这个领域有没有一些研究,或者只计算一些相关
的
单词出现了多少次?
浏览 1
提问于2012-01-16
得票数 1
回答已采纳
4
回答
在python中使用朴素贝叶斯进行
文档
分类
、
、
我正在做一个使用python中
的
朴素贝叶斯分类器进行
文档
分类
的
项目。我已经使用了nltk python模块来做同样
的
事情。这些
文档
来自路透社数据集。我执行了词干
提取
和停用字消除等预处理步骤,并继续计算索引项
的
tf-idf
。我使用这些值来训练分类器,但准确率非常低(53%)。我应该做些什么来提高准确率?
浏览 2
提问于2012-05-09
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
自适应无监督学习的特征提取方法
采用深度神经网络的说话人特征提取方法
pdf转jpg的方法有哪些?轻松提取文档图片
从手工提取特征到深度学习的三种图像检索方法
6,特征的提取
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券