时序数据Sklearn随机森林中的缺失值

文章/答案/技术大牛

发布

1回答

、

我正在尝试使用scikit-learn来构建一个模型，我想知道最好的方法是什么来处理我丢失的特定类型的功能。我有一个用户的基础，谁每个人都需要在给定的时间范围内完成一个目标(例如3天)。我有每个用户的基本信息，这些信息始终是不变的。我已经在这些信息上训练了一个简单的随机森林分类器，到目前为止，它在预测用户是否会完成目标方面相当不错。我还有已经完成(或未完成)的所有用户的完成百分比的</em

浏览 1提问于2016-09-19得票数 1

1回答

max_features参数在DecisionTreeClassifier中是如何工作的？

、

max_features中的参数DecisionTreeClassifier负责什么？我认为它定义了树用于生成节点的特性的数量。但是，尽管这个参数的值不同(n =1和2)，但我的树使用了我所拥有的这两个特性。有什么变化吗？

浏览 0提问于2018-11-19得票数 13

回答已采纳

3回答

如何实现KNN对滑雪板管道中的分类特征进行归属化

我想使用KNN在一个滑雪管道中的分类特征(多个分类功能缺失)。是否有任何现有的方法允许使用KNN (或任何其他回归体)将缺失的值(在本例中是绝对的)归责于sklearn管道fancyimpute KNN实现似

浏览 1提问于2019-09-03得票数 1

回答已采纳

2回答

在分类问题(随机森林)中评价特征重要性的度量方法

、

我想在随机森林的分类问题中评估2000x60数据集的每个特性的重要性。最广泛使用的显然是：基尼重要性(__SkLearn implementation `feature_importances`_) 均方误差(__H2O与h2o.varimp__实现)在这个研究论文中，我还发现了关于变量在随机森林中的重要性的一些其他度量的相当简洁的概述。这些建

浏览 0提问于2018-08-30得票数 6

2回答

深潜在特征上的重要性

、

当基于gini杂质(sklearn提供的MDI)或通过相关图计算随机森林中的特征重要性时，很少有有效数据较少的特性不能显示它的真正重要性，比方说我们有回报，因此在销售中有非常少的回报值。

浏览 0提问于2022-10-27得票数 0

2回答

在某些情况下，xgb.train和xgb.XGBRegressor之间的差异是

、、、、

我注意到在Python中有两种可能的XGBoost实现，如和所讨论的import xgboost as xgbimport xgboostimportnumpy as np boston_dat

浏览 5提问于2019-12-18得票数 1

7回答

我的测试集的准确率是100%，有什么问题吗？

、、、、

当使用决策树algorithm.but训练时，我在测试集上的准确率为100%，在随机森林中只有85%的准确率。from sklearn.model_selection import train_test_splitprint(cm) #Decisio

浏览 0提问于2018-07-19得票数 11

回答已采纳

1回答

基于树的具有重复特征的不同行为算法

、、、

我不明白为什么我有三种不同的行为取决于我使用的分类器，即使它们应该并驾齐驱。这就是要深入探讨这个问题的代码：from sklearn.ensemble import RandomForestClassifierfrom lightgbm import LGBMClassifier from sklearn.mode

浏览 7提问于2022-07-20得票数 1

回答已采纳

5回答

学习随机森林可以直接处理分类特征吗？

、、、

假设我有一个分类特征，即颜色，它采用以下值我想用它来预测随机森林中的一些东西。如果我只对它进行一次热编码(即我将它更改为四个虚拟变量)，我如何告诉sklearn这四个虚拟变量实际上是一个变量？具体来说，当sklearn随机选择要在不同节点上使用的特性时，它要么应该将红色、蓝色、绿色和橙色的假人放在一起，要么不应该包含其中的任何一个。

浏览 12提问于2014-07-12得票数 77

回答已采纳

2回答

为什么交叉验证分数这么低？

、、、、

该数据集具有3个特征和600个带有标签的数据点。grid_search.fit(X, y)最好的分数是具有以下参数的min_samples_leaf': 4, '

浏览 0提问于2018-04-23得票数 4

回答已采纳

1回答

假设我有AttributeA，它可以取值A1、A2、A3、AttributeB，可以取B1、B2、B3等值，而且我提前知道我的分类表看起来像 AttributeA _ AttributeB _ AttributeC我很好奇如何修改决策树以处理可以接受任何值的属性。我的一个想法是将带有"anything“的单个规则更改为多个规则，在这些规则中，该属性的每个可能的值都会显式地声明。可以将规则A1 \x/ B1 \x\x

浏览 0提问于2019-07-17得票数 0

回答已采纳

1回答

有没有办法从随机森林模型中提取树的深度？

、、、、

我创建了一个随机森林分类器，我是，试图生成我的随机森林模型的树的深度直方图。我只是不能提取森林里每棵树的深度。我的RF模型被称为'RF_optimised‘，我已经尝试了下面的代码来迭代我的树并可视化它已经工作了。from sklearn import treefrom sklearn.externals.

浏览 0提问于2019-05-21得票数 1

回答已采纳

1回答

在孤立森林中集成缺失的值

、、、、

现有的XGBoost算法能够通过最小化损失()来选择训练过程中的最佳方向来处理丢失的值。在我们的机构内，这一特性在处理稀疏的表格数据时具有很大的价值。我们的下一个项目是检测类似数据集中的异常值；大型表格数据集中丢失的数据相对较多。我们遇到的有趣的技术之一是隔离森林。现在，我们想探讨是否可能将XGBoost所具有的缺少值<

浏览 0提问于2019-03-21得票数 1

1回答

如何在科学学习中的随机森林分类器中设置子样本大小？特别是对于不平衡的数据

、、

目前，我正在为我的不平衡数据在Sklearn中实现RandomForestClassifier。我不太清楚RF是如何在Sklearn中准确地工作的。我所关注的问题如下：

浏览 4提问于2017-07-06得票数 7

3回答

使用随机森林建模需要交叉验证吗？

、

最佳实践肯定会要求使用交叉验证(特别是如果将RFs与同一数据集上的其他算法进行比较的话)。另一方面，原始源指出在模型训练过程中计算OOB误差是测试集性能的一个指标。就连特雷弗·哈斯蒂( Trevor Hastie )在最近的一次会谈中也表示，“随机森林提供免费交叉验证”。直觉上，这对我来说是有意义的，如果训练和试图改进一个数据集上基于射频的模型。有人能不能列出赞成和反对与随机森林交叉验证的理由？

浏览 0提问于2015-07-20得票数 34

1回答

在randomForest中访问单个树叶

、、、

我使用R中的包quantregForest，它基于randomForest，从一组预测器生成预测间隔。在对某些数据进行训练后，它为测试数据中的每一组预测器输出一个基于分位数的预测间隔。据我了解，生成的随机森林中的每个叶(或终端节点)都表示值的分布。如何访问组成森林中每个叶子(终端节点)的值？

浏览 3提问于2022-03-17得票数 1

1回答

滑雪板随机森林回归预测负重训练时的-inf

、、

我正在使用一个随机森林回归从滑雪包。我使用的自变量(X)是人口统计学，因变量(Y)应该是收入。在我的训练数据集中，我有抽样权值，其中一些(<1%)为负值。负重的绝对值通常很小。切换到回归树，问题在森林中树少的情况下多次出现，多数情况下是好的，但偶尔也会出现相同的问题，occurs.Dropping所有负权重都会使问题消失。对于负重的样本，将权重改为绝对值，并

浏览 3提问于2021-07-28得票数 0

4回答

学习随机森林分类器能按树调整样本大小，处理类不平衡吗？

、、、、

关于滑雪板随机森林的简单问题：在随机森林的R实现(称为randomForest )中，有一个选项sampsize()。这允许您根据结果来平衡用于训练每棵树的样本。例如，如果您试图预测结果是正确还是错误，并且培训集中90%<em

浏览 2提问于2013-11-27得票数 6

回答已采纳

1回答

绘制图表，排除pandas或matplotlib中的缺失值

、、、

我是Pandas的时序编程新手。以下是示例数据：0 2017-11-05 09:20:01.134 2123.056.62 NaN我想为ShiftedPrice列没有缺失值的所有对绘制您可以假设数据列

浏览 2提问于2017-12-19得票数 2

回答已采纳

2回答

Scikit-learn是否发布了python GIL？

、、、、

我想在不同的线程中训练多个单类SVM。有没有人知道scikit的SVM是否发布了GIL？我在网上没有找到任何答案。谢谢

浏览 0提问于2011-09-13得票数 5

回答已采纳

点击加载更多