腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
用于
特征
选择
的互
信息
文本
分类
、
我
使用
朴素贝叶斯
分类
器
进行
文本
分类
。
如何
使用
互
信息
度量
进行
特征
选择
来提高算法的准确性?
浏览 4
提问于2014-07-20
得票数 1
1
回答
在
文本
分类
中
,
如何
使用
TF-IDF
并
结合
信息
增益
进行
特征
选择
?
、
、
、
、
我不知道
如何
组合
TF-IDF
结果并在数学上将其用于
信息
增益
的概念。有人能给我解释一下吗?
浏览 28
提问于2019-09-03
得票数 1
3
回答
特征
选择
文本
挖掘
、
、
、
、
我们正在
进行
一项关于
文本
分类
的任务,我们
使用
了一种无监督的机器学习模型。
在
进行
文本
聚类之前,数据集必须经过几个步骤,如从停止词
中
清除数据集,从
文本
中提取词干词,然后得到
特征
选择
。阅读关于
特征
选择
的文章,我可以应用几种方法来
进行
特征
选择
,如
信息
增益
、基尼指数和互
信息<
浏览 2
提问于2013-12-23
得票数 0
1
回答
如何
在
文本
分类
中发现
信息
增益
?
、
我正在
使用
决策树
进行
文本
分类
,它
使用
信息
增益
作为
文本
文档
分类
的主值。我已经通过TF*IDF值提取了一些
特征
。但我不能计算出
信息
增益
的确切计算方式?有一些文章对此提出了建议,但没有一篇文章非常清楚
如何
将其应用于
文本
文件。
浏览 4
提问于2013-12-21
得票数 1
1
回答
垃圾邮件过滤
中
的降维方法
、
、
、
、
我正在
进行
一个实验,需要比较几种垃圾邮件过滤
分类
算法的
分类
性能,即。他
在
博客
中
写道:“垃圾邮件过滤是一个典型的
文本
分类
问题,其中降维可能是一个很大的错误。”所以,现在我很困惑,
在
垃圾邮件过滤的情况下,降维是否有用?此外,我还在文献
中
读到了关于文档频率和TF-国防军是一种
特征
约简技术的文献。但我不知道它是
如何
工作的,并在
分类
过程中发挥作用。 我知道
如何
使用<
浏览 3
提问于2014-04-09
得票数 0
回答已采纳
1
回答
R中用于
文本
分类
的包
特征
选择
、
、
、
在
训练模型之前,我想在R中
进行
二值
文本
分类
的
特征
选择
。有没有可以应用的包(类似于python
中
的TextFeatureSelection )?或者,有没有人有一个例子,说明
如何
将R
中
的比例差或
信息
增益
应用于
文本
? 非常感谢!
浏览 7
提问于2022-10-09
得票数 0
1
回答
特征
向量:计算训练集与测试集的权重
、
、
我正在
使用
支持向量机
进行
文本
分类
,但基本上我对测试集的
特征
向量的计算感到困惑。例如:
在
特定单词"ap
浏览 2
提问于2013-04-21
得票数 2
回答已采纳
1
回答
如何
在回归树中计算
特征
重要性?
、
、
、
在
使用
决策树算法或随机森林
进行
分类
的情况下,我们
使用
基尼杂质或
信息
增益
作为衡量标准,以确定首先
选择
哪个
特征
来分割父节点/中间节点,但如果我们
使用
决策树或随机森林
进行
回归,那么
如何
计算
特征
重要性或
选择
特征
浏览 62
提问于2020-10-22
得票数 1
2
回答
信息
增益
在
文本
分类
中
的作用
、
、
我现在必须学习用于
特征
选择
的
信息
增益
,但我对此并不是很清楚。我是一个新手,我对此感到困惑。 下面是这个例子:
浏览 6
提问于2016-12-15
得票数 4
4
回答
在
python中
使用
朴素贝叶斯
进行
文档
分类
、
、
我正在做一个
使用
python
中
的朴素贝叶斯
分类
器
进行
文档
分类
的项目。我已经
使用
了nltk python模块来做同样的事情。这些文档来自路透社数据集。我执行了词干提取和停用字消除等预处理步骤,
并
继续计算索引项的
tf-idf
。我
使用
这些值来训练
分类
器,但准确率非常低(53%)。我应该做些什么来提高准确率?
浏览 2
提问于2012-05-09
得票数 2
回答已采纳
4
回答
找到最好的一组特性来分离2组已知的数据
、
我每个人都有500个
特征
。现在,我想看看哪些特性最大限度地实现了这种分离。我的第一种方法是测试每个
特征
与svm的组合,
并
遵循svm给出的分数。如果分数很好,那么这些
特征
与分离这两组数据是相关的。但这需要太多的时间。500!可能性。如果分数发生了很大的变化,那么这个
特征
是相关的。这样做更快,但我
浏览 7
提问于2015-08-21
得票数 1
回答已采纳
1
回答
决策树的
特征
重要性、离散化及判别准则
、
、
、
、
我正在处理数值
特征
,我想在sklearn中
使用
决策树
分类
器来找到
特征
的重要性。
特征
的重要性。越高,功能就越重要。
特征
的重要性计算为该
特征
所带来的标准的(规范化)总体缩减。它也被称为基尼重要性R19
浏览 6
提问于2015-05-31
得票数 0
3
回答
特征
选择
、
特征
提取、
特征
权重的差异
、
、
、
我有点搞不懂“
特征
选择
/提取器/权重”意味着什么以及它们之间的区别。当我读文献的时候,我发现这个词
使用
得很松散,有时我觉得很失落,我最关心的是-- 如果我训练
分类
器--通过一个
特征
集要求
分类
器注意文档
中
浏览 2
提问于2010-01-29
得票数 14
1
回答
Python中
文本
分类
的
特征
选择
、
、
、
我正在
使用
scikit-learn库
中
的Random Forest解决python
中
的一个
文本
分类
问题。我想尝试不同的
特征
选择
方法,例如
信息
增益
(IG)或双正态分离(BNS),如本中所述。似乎scikit
中
唯一可用的
特征
选择
方法(
使用
CountVectorizer类)是基于文档频率的。其他库中有其他方法吗?
浏览 1
提问于2014-09-10
得票数 0
2
回答
如何
处理SVR任务
中
的高维稀疏特性?
、
、
我有一个类似twitter的(另一个微博)数据集,拥有160万个数据点,
并
试图根据其内容预测其转发数量。我提取了它的关键字,
并
使用
关键字作为包的文字
特征
。然后我得到了120万维
特征
。
特征
向量非常稀疏,通常在一个数据点上只有10维。我用SVR做回归。现在已经用了两天了。我认为训练时间可能需要相当长的时间。我不知道这样做是否正常。是否有任何方法或有必要优化这个问题? 顺便说一下。如果在这种情况下,我不
使用
任何内核,机器是32 is和i-7 16核。估计培训时间是多长时间?我
浏览 4
提问于2015-08-27
得票数 1
回答已采纳
1
回答
确定WEKA
中
各个变量的重要性
、
、
、
我正在尝试确定LMT(逻辑模型树) DT (决策树)的WEKA实现
中
单个变量的重要性。 我想知道每个独立变量
在
分类
任务
中
的贡献,因此需要确定每个独立变量的重要性。这是为了对我的结果
进行
更深入的分析。我已经研究了“
选择
属性”选项卡,以及相应的算法(即主成分、
信息
增益
、排序器等);但是,这些算法提供了有关哪些组合或变量等级将有助于最佳(或最有效,或最快,取决于您的最终目标,
分类
器)的
信息
。然而,我对排名或
选择</
浏览 3
提问于2013-02-19
得票数 1
4
回答
特征
选择
与
分类
精度关系
、
为
分类
器
选择
可用
特征
子集的方法之一是根据标准(例如
信息
增益
)对它们
进行
排序,然后
使用
分类
器和排序
特征
的子集计算精度。例如,如果您的特性是A, B, C, D, E,如果它们按照D,B,C,E,A排序,那么您可以
使用
D、D, B、D, B, C、D, B, C, E来计算精度.直到你的准确度开始下降。📷
在
example1 (上面)
中
,您将
选择
特性F, C, D,
浏览 0
提问于2016-10-24
得票数 11
回答已采纳
1
回答
scikit adaboost feature_importance_
、
、
在
python
中
实现的adaboost算法是
如何
为每个特性分配特性重要性的?我正在
使用
它
进行
特征
选择
,我的模型
在
基于feature_importance_值的
特征
选择
方面表现得更好。
浏览 4
提问于2016-04-16
得票数 4
回答已采纳
3
回答
如何
评价
特征
选择
方法?
、
、
、
你好,我的猜测:
在
应用
特征
选择
筛选器之后,应该
使用
交叉验
浏览 4
提问于2013-01-08
得票数 2
3
回答
在
Java中保存大量数据的最佳实践
、
、
、
、
我正在用Java编写一个小系统,在这个系统
中
,我从
文本
文件中提取n元语法
特征
,稍后需要执行
特征
选择
过程,以便
选择
最多的鉴别器
特征
。单个文件的
特征
提取过程返回一个Map,其中包含每个唯一
特征
及其
在
文件
中
的出现情况。我将所有文件的Map (Map)合并为一个Map,其中包含从所有文件中提取的所有唯一
特征
的文档频率(DF)。目前,
特征
提取过程运行良好,我想执行
特
浏览 1
提问于2015-01-14
得票数 11
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大话文本分类
干货 Kaggle Grandmaster的NLP 方法
Kaggle比赛教你最快速度入门文本分类
基于深度学习和经典方法的文本分类
通过Python进行文本数据分析和自然语言处理
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券