腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1566)
视频
沙龙
1
回答
时序
数据
Sklearn
随机
森
林中
的
缺失
值
、
我正在尝试使用scikit-learn来构建一个模型,我想知道最好
的
方法是什么来处理我丢失
的
特定类型
的
功能。 我有一个用户
的
基础,谁每个人都需要在给定
的
时间范围内完成一个目标(例如3天)。我有每个用户
的
基本信息,这些信息始终是不变
的
。我已经在这些信息上训练了一个简单
的
随机
森林分类器,到目前为止,它在预测用户是否会完成目标方面相当不错。我还有已经完成(或未完成)
的
所有用户
的
完成百分比
的</em
浏览 1
提问于2016-09-19
得票数 1
1
回答
max_features参数在DecisionTreeClassifier中是如何工作
的
?
、
max_features中
的
参数DecisionTreeClassifier负责什么? 我认为它定义了树用于生成节点
的
特性
的
数量。但是,尽管这个参数
的
值
不同(n =1和2),但我
的
树使用了我所拥有的这两个特性。有什么变化吗?
浏览 0
提问于2018-11-19
得票数 13
回答已采纳
3
回答
如何实现KNN对滑雪板管道中
的
分类特征进行归属化
我想使用KNN在一个滑雪管道中
的
分类特征(多个分类功能
缺失
)。 是否有任何现有的方法允许使用KNN (或任何其他回归体)将
缺失
的
值
(在本例中是绝对
的
)归责于
sklearn
管道fancyimpute KNN实现似
浏览 1
提问于2019-09-03
得票数 1
回答已采纳
2
回答
在分类问题(
随机
森林)中评价特征重要性
的
度量方法
、
我想在
随机
森林
的
分类问题中评估2000x60
数据
集
的
每个特性
的
重要性。最广泛使用
的
显然是:基尼重要性(__
SkLearn
implementation `feature_importances`_) 均方误差(__H2O与h2o.varimp__实现)在这个研究论文中,我还发现了关于变量在
随机
森
林中
的
重要性
的
一些其他度量
的
相当简洁
的
概述。这些建
浏览 0
提问于2018-08-30
得票数 6
2
回答
深潜在特征上
的
重要性
、
当基于gini杂质(
sklearn
提供
的
MDI)或通过相关图计算
随机
森
林中
的
特征重要性时,很少有有效
数据
较少
的
特性不能显示它
的
真正重要性,比方说我们有回报,因此在销售中有非常少
的
回报值。
浏览 0
提问于2022-10-27
得票数 0
2
回答
在某些情况下,xgb.train和xgb.XGBRegressor之间
的
差异是
、
、
、
、
我注意到在Python中有两种可能
的
XGBoost实现,如和所讨论
的
import xgboost as xgbimport xgboostimportnumpy as np boston_dat
浏览 5
提问于2019-12-18
得票数 1
7
回答
我
的
测试集
的
准确率是100%,有什么问题吗?
、
、
、
、
当使用决策树algorithm.but训练时,我在测试集上
的
准确率为100%,在
随机
森
林中
只有85%
的
准确率。from
sklearn
.model_selection import train_test_splitprint(cm) #Decisio
浏览 0
提问于2018-07-19
得票数 11
回答已采纳
1
回答
基于树
的
具有重复特征
的
不同行为算法
、
、
、
我不明白为什么我有三种不同
的
行为取决于我使用
的
分类器,即使它们应该并驾齐驱。这就是要深入探讨这个问题
的
代码:from
sklearn
.ensemble import RandomForestClassifierfrom lightgbm import LGBMClassifier from
sklearn
.mode
浏览 7
提问于2022-07-20
得票数 1
回答已采纳
5
回答
学习
随机
森林可以直接处理分类特征吗?
、
、
、
假设我有一个分类特征,即颜色,它采用以下
值
我想用它来预测
随机
森
林中
的
一些东西。如果我只对它进行一次热编码(即我将它更改为四个虚拟变量),我如何告诉
sklearn
这四个虚拟变量实际上是一个变量?具体来说,当
sklearn
随机
选择要在不同节点上使用
的
特性时,它要么应该将红色、蓝色、绿色和橙色
的
假人放在一起,要么不应该包含其中
的
任何一个。
浏览 12
提问于2014-07-12
得票数 77
回答已采纳
2
回答
为什么交叉验证分数这么低?
、
、
、
、
该
数据
集具有3个特征和600个带有标签
的
数据
点。grid_search.fit(X, y)最好
的
分数是具有以下参数
的
min_samples_leaf': 4, '
浏览 0
提问于2018-04-23
得票数 4
回答已采纳
1
回答
决策树应该如何处理可以是任何内容
的
属性?
假设我有AttributeA,它可以取值A1、A2、A3、AttributeB,可以取B1、B2、B3等
值
,而且我提前知道我
的
分类表看起来像 AttributeA _ AttributeB _ AttributeC我很好奇如何修改决策树以处理可以接受任何
值
的
属性。我
的
一个想法是将带有"anything“
的
单个规则更改为多个规则,在这些规则中,该属性
的
每个可能
的
值
都会显式地声明。可以将规则A1 \x/ B1 \x\x
浏览 0
提问于2019-07-17
得票数 0
回答已采纳
1
回答
有没有办法从
随机
森林模型中提取树
的
深度?
、
、
、
、
我创建了一个
随机
森林分类器,我是,试图生成我
的
随机
森林模型
的
树
的
深度直方图。我只是不能提取森林里每棵树
的
深度。我
的
RF模型被称为'RF_optimised‘,我已经尝试了下面的代码来迭代我
的
树并可视化它已经工作了。from
sklearn
import treefrom
sklearn
.externals.
浏览 0
提问于2019-05-21
得票数 1
回答已采纳
1
回答
在孤立森
林中
集成
缺失
的
值
、
、
、
、
现有的XGBoost算法能够通过最小化损失()来选择训练过程中
的
最佳方向来处理丢失
的
值
。在我们
的
机构内,这一特性在处理稀疏
的
表格
数据
时具有很大
的
价值。我们
的
下一个项目是检测类似
数据
集中
的
异常值;大型表格
数据
集中丢失
的
数据
相对较多。我们遇到
的
有趣
的
技术之一是隔离森林。现在,我们想探讨是否可能将XGBoost所具有的缺少
值<
浏览 0
提问于2019-03-21
得票数 1
1
回答
如何在科学学习中
的
随机
森林分类器中设置子样本大小?特别是对于不平衡
的
数据
、
、
目前,我正在为我
的
不平衡
数据
在
Sklearn
中实现RandomForestClassifier。我不太清楚RF是如何在
Sklearn
中准确地工作
的
。我所关注
的
问题如下:
浏览 4
提问于2017-07-06
得票数 7
3
回答
使用
随机
森林建模需要交叉验证吗?
、
最佳实践肯定会要求使用交叉验证(特别是如果将RFs与同一
数据
集上
的
其他算法进行比较的话)。另一方面,原始源指出在模型训练过程中计算OOB误差是测试集性能
的
一个指标。就连特雷弗·哈斯蒂( Trevor Hastie )在最近
的
一次会谈中也表示,“
随机
森林提供免费交叉验证”。直觉上,这对我来说是有意义
的
,如果训练和试图改进一个
数据
集上基于射频
的
模型。有人能不能列出赞成和反对与
随机
森林交叉验证
的
理由?
浏览 0
提问于2015-07-20
得票数 34
1
回答
在randomForest中访问单个树叶
、
、
、
我使用R中
的
包quantregForest,它基于randomForest,从一组预测器生成预测间隔。 在对某些
数据
进行训练后,它为测试
数据
中
的
每一组预测器输出一个基于分位数
的
预测间隔。据我了解,生成
的
随机
森
林中
的
每个叶(或终端节点)都表示
值
的
分布。如何访问组成森
林中
每个叶子(终端节点)
的
值
?
浏览 3
提问于2022-03-17
得票数 1
1
回答
滑雪板
随机
森林回归预测负重训练时
的
-inf
、
、
我正在使用一个
随机
森林回归从滑雪包。我使用
的
自变量(X)是人口统计学,因变量(Y)应该是收入。在我
的
训练
数据
集中,我有抽样权
值
,其中一些(<1%)为负值。负重
的
绝对
值
通常很小。切换到回归树,问题在森
林中
树少
的
情况下多次出现,多数情况下是好
的
,但偶尔也会出现相同
的
问题,occurs.Dropping所有负权重都会使问题消失。对于负重
的
样本,将权重改为绝对
值
,并
浏览 3
提问于2021-07-28
得票数 0
4
回答
学习
随机
森林分类器能按树调整样本大小,处理类不平衡吗?
、
、
、
、
关于滑雪板
随机
森林
的
简单问题: 在
随机
森林
的
R实现(称为randomForest )中,有一个选项sampsize()。这允许您根据结果来平衡用于训练每棵树
的
样本。例如,如果您试图预测结果是正确还是错误,并且培训集中90%<em
浏览 2
提问于2013-11-27
得票数 6
回答已采纳
1
回答
绘制图表,排除pandas或matplotlib中
的
缺失
值
、
、
、
我是Pandas
的
时序
编程新手。以下是示例
数据
:0 2017-11-05 09:20:01.134 2123.056.62 NaN我想为ShiftedPrice列没有
缺失
值
的
所有对绘制您可以假设
数据
列
浏览 2
提问于2017-12-19
得票数 2
回答已采纳
2
回答
Scikit-learn是否发布了python GIL?
、
、
、
、
我想在不同
的
线程中训练多个单类SVM。有没有人知道scikit
的
SVM是否发布了GIL?我在网上没有找到任何答案。 谢谢
浏览 0
提问于2011-09-13
得票数 5
回答已采纳
点击加载更多
相关
资讯
数据的来源和缺失值处理
问卷数据中的缺失值插补方法
OriginPro:如何绘制有缺失值的Contour图【数据绘图】
数据分享|Python在Scikit-Learn可视化随机森林中的决策树分析房价数据
大数据中填充缺失值很有效的树模型算法,MissForest算法
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券