为什么随机森林或决策树不能提供100%的精度？以及如何处理中间的巨大噪音？

如果决策树试图根据属于相似类的最大数量的数据来确定拆分，为什么它不能拆分这些特定的数据，直到每个拆分中只有1个元素，这将导致100%的精度？ ?

浏览 44提问于2019-12-30得票数 0

回答已采纳

1回答

利用可视化垂直线对数据点进行分类

、、、

我目前正在做硕士论文，在毕业后，我的导师提出了一些问题。我已经回答了大部分的问题，但只剩下一个问题，我不知道如何回答。我的硕士论文是将给定的医学数据分类为癌症或免疫，预处理后的数据点的可视化看起来如下所示，现在，我已经使用支持向量机与核、决策树和随机森林算法对数据点进行分类，它们获得了很好的精度和F1评分，但我的主管提出了

浏览 0提问于2022-10-30得票数 1

2回答

利用决策树对图像进行分类

、

我是机器学习和阅读的新手，我想知道是否可以(也方便)使用决策树对图像进行分类。例如，对人脸进行分类

浏览 0提问于2019-12-05得票数 1

回答已采纳

2回答

如何用1000种估计量可视化集合模型(随机森林)

、、、、

我正在处理分类问题，我需要在购买/非购买类别中对用户进行分类。我有大约100 +特性或预测器来预测用户的行为。我还提取了重要的特性，负责我的预测，但我不能完全可视化模型。一些随机森林</em

浏览 0提问于2018-10-09得票数 1

2回答

我们如何在XGBoost、RandomForest和决策树之间做出决定？

、、、

在决定在处理特定数据集时应该使用哪种技术时，我们应该考虑什么？我知道这没有任何硬性规定。在其他情况下，我们是否只在数据集和RandomForest中有很多特性时才使用RandomForest？还是我们应该打和试验，并找到谁给我们带来更好的结果，每次？

浏览 0提问于2020-07-30得票数 5

回答已采纳

1回答

当数据集具有许多相关特征时，我在评论中看到了一条关于决策树S的建议，而不是像神经网络这样的线性模型。因为为了避免多重共线性。一个类似的问题已经提出，但没有得到真正的回答。questions/137573/do-classification-trees-need-to-consider-the-correlation-between-attributes 或者在这里在监督学习中，为什么有相关的特征是不好的我的问题是:我有一个大约30列

浏览 0提问于2020-07-13得票数 1

回答已采纳

2回答

分类编码后处理不平衡数据

、、、、

在运行logistic、knn、决策树、随机林等算法时，即使不进行任何特征选择，数据的准确率也很高，除“朴素偏倚分类器”外，准确率大多在94%以上。这似乎是奇怪的，甚至有任意两个随机特性->这提供了超过94%的准确性，这似乎是不现实的。此外，还提供了94%以上的精度，即使是上述任何算法的基线模型，如logistic，knn，决策树，随机<e

浏览 1提问于2019-08-20得票数 1

回答已采纳

4回答

为什么我们需要XGBoost和随机森林？

、、、、

随机森林使用来自树的各种样本来创建树。这种方法的优点是什么而不是仅仅使用一棵单数树？

浏览 0提问于2017-10-14得票数 40

回答已采纳

2回答

我需要强制我的随机森林模型来学习一个关键的特征之间的关系。我怎样才能做到这一点？

、

假设给我的RF模型输入10个独立的特征，当特征1和特征3是100 (或更少)时，我的模型输出必须是5，尽管有其他特性的值。我怎样才能教我的射频模型的关系-所以它将永远服从这一点？我尝试在训练集中添加重复的人工数据点，其中特征1和3小于或等于100，并且输出总是为零，但是RF模型似乎只是基于这一点来理解/学习这种关系。我正在使用R中的mlr库来创建我的RF模型。谢谢。

浏览 0提问于2018-10-24得票数 3

2回答

当信息在点与点之间而不是点本身之间的关系中时，如何处理问题？

、、、

我试图分析车辆的移动模型，在那里我试图了解一个特定的车辆是如何移动的，然后从测试数据中检测出类似的模式。下面是我现在所做的工作:我为9个用户提供了移动数据，每个用户在2秒的频率下收集了超过5分钟的移动数据。对于每一点，我都有一个userID值，我使用的特征是速度和距离，2点作为特征。当我使用类似的结构来测试数据(没有每个用户的用户I的5分钟数据组合成一个数据)时，我得到了非常奇怪的

浏览 0提问于2019-07-30得票数 -1

2回答

随机森林分类器中的单热编码

、、

是否需要对python中的随机森林分类器进行一次热编码？我想从逻辑上理解，随机林中是否可以用标签编码来处理分类特性，而不是单热编码。

浏览 4提问于2021-01-14得票数 0

1回答

为什么不能在决策树中随机启动根节点？

、、、

我刚开始学习决策树。所以这些问题可能有点傻。选择根节点的想法有点混乱。为什么我们不能随机选择根节点？唯一的不同似乎是，它将使决策树更长和更复杂，但最终会得到同样的结果。同样，作为决策树中特征选择过程的扩展，为什么不能使用像特征和目标之间的相关性这样简单的东西，或者用卡方检验来确定应该从哪一个特征开始呢？

浏览 11提问于2020-07-05得票数 1

回答已采纳

1回答

随机林在期望下的表现

、、、、

我正在学习决策树算法，并在Weka中实现了一个参考RF的随机森林。我用相同的数据集测试了我的实现和weka实现(在默认设置下)。而矿井的精度比Weka版本3.8 (由“训练-首100. and”训练集和“dev- about 100.and”测试集获得)的精度低5%左右。我使用的arff格式数据集是来自IMDb的电影评论。对于每一个例子，它包含

浏览 5提问于2016-12-18得票数 1

2回答

Swift中金融变量的正确数字类型是什么？

、、、

我习惯于用Java编程，因为在计算中指定舍入规则是最适合存储金融值的类型。在最新的快速版本(2.1在撰写这篇文章时)，哪一种本机类型更支持正确的计算和财务值的四舍五入？有任何与java的BigDecimal等价的东西吗？或者其他类似的东西？

浏览 0提问于2016-03-17得票数 2

回答已采纳

7回答

我的测试集的准确率是100%，有什么问题吗？

、、、、

当使用决策树algorithm.but训练时，我在测试集上的准确率为100%，在随机森林中只有85%的准确率。predictions = clf.predict(x_test)混淆矩阵：随机森林

浏览 0提问于2018-07-19得票数 11

回答已采纳

1回答

生产环境中的时间序列分类.疑问

、、、

我的问题(怀疑)是：由于我的数据是标准化和标准化的，关于时间序列长度的建议是什么，因为这对于生产环境中模型中输入数据的标准化很重要。在培训期间，我将每日时间戳上的值除以(例

浏览 0提问于2022-11-11得票数 0

回答已采纳

2回答

随机森林特征与数据的选择

、、

首先，我感到困惑的是，在所有树的每个节点上，我们是随机地从所有的树中挑选出要进行最佳分割的特征，还是每棵树都有一个随机的特征子集，然后该树中的所有节点都必须与这些特征一起工作？现在，不管我们是在树还是节点级选择随机特征，为什么要为每棵树选择随机子集的数据呢？因为如果在树/节点级别的特征是不同的，树将是不同的。为什么我们需要添加另一个层次

浏览 0提问于2019-04-25得票数 1

7回答

RandomForestClassifier中的feature_importances是如何确定的？

、、

我有一个以时间序列作为数据输入的分类任务，其中每个属性(n=23)表示一个特定的时间点。除了绝对分类结果之外，我还想找出哪些属性/日期对结果有多大的影响。但是，我想知道它们是如何计算出来的，以及使用了哪种度量/算法。不幸的是，我找不到任何关于这个主题的文档。

浏览 1提问于2013-04-04得票数 134

2回答

除了随机森林和决策树外，哪个预测航班延误的模型是合适的？(蒙特卡罗？)

、、、、

目标和交付成果，在项目结束时，我们希望开发一个模型，根据航班、机场、飞行时间等变量，准确地(基于大于随机机会的AUC )确定一次航班是否会延误，以及所提供的变量(航空、机场、飞行时间等)。它不依赖于天气预报的知识，也不依赖先前航班的状况。本项目的范围将是利用蒙特卡洛或随机森林建立一个模型，以便根据周数、航空公司、机场、飞行时间等自变量预测一次航班是否会延误。其次，导入和删除/预处理数据，以

浏览 0提问于2022-06-13得票数 2

2回答

Tensorflow决策森林自定义指标与树的数量

、、、、

我已经使用tensorflow决策森林创建了一个分类模型。我正在努力评估非默认指标(在本例中为PR-AUC)的性能与树的数量之间的变化。下面是我尝试的一些代码。train = load_diabetes()X['target'] = (pd.Series(train['target']) > 1000.9005518555641174, loss=0.56

浏览 46提问于2021-10-22得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

利用可视化垂直线对数据点进行分类

利用决策树对图像进行分类

如何用1000种估计量可视化集合模型(随机森林)

我们如何在XGBoost、RandomForest和决策树之间做出决定？

决策-tree回归以避免回归模型的多重共线性？

分类编码后处理不平衡数据

为什么我们需要XGBoost和随机森林？

我需要强制我的随机森林模型来学习一个关键的特征之间的关系。我怎样才能做到这一点？

当信息在点与点之间而不是点本身之间的关系中时，如何处理问题？

随机森林分类器中的单热编码

为什么不能在决策树中随机启动根节点？

随机林在期望下的表现

Swift中金融变量的正确数字类型是什么？

我的测试集的准确率是100%，有什么问题吗？

生产环境中的时间序列分类.疑问

随机森林特征与数据的选择

RandomForestClassifier中的feature_importances是如何确定的？

除了随机森林和决策树外，哪个预测航班延误的模型是合适的？(蒙特卡罗？)

Tensorflow决策森林自定义指标与树的数量

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐