如何构建决策树回归模型

决策树回归模型是一种基于树形结构的机器学习算法，用于预测连续型目标变量。它通过递归地将数据集划分为更小的子集，并在每个子集上进行简单的预测模型构建。以下是关于如何构建决策树回归模型的详细解答：

构建决策树回归模型的步骤

数据准备：首先，需要收集并整理回归问题所需的数据集，包括特征属性和对应的目标值。
特征选择：根据问题的特点和数据集的特征属性，选择适合的特征作为决策树的判断条件。常用的特征选择方法包括信息增益、信息增益比、基尼指数等。
决策树构建：根据选定的特征选择方法，递归地将数据集划分为子集，直到满足停止条件，如达到最大深度或叶节点样本数量小于某个阈值。
决策树剪枝：为了避免过拟合，可以对构建好的决策树进行剪枝操作，去除一些不必要的节点和分支。
模型评估：使用评估指标（如均方误差、平均绝对误差等）对构建好的决策树回归模型进行评估，判断其预测性能。

决策树回归模型的优势和类型

优势：模型具有解释性强，能够输出清晰可解释的规则；适用于各种类型的数据，包括离散型和连续型特征；对异常值和缺失值具有较好的鲁棒性；构建和预测速度较快，适用于大规模数据集。
类型：常见的决策树回归算法包括CART(Classification and Regression Trees)算法和随机森林回归模型等。

应用场景

决策树回归模型广泛应用于金融风险评估、销售预测、天气预报等领域。它适用于那些需要对连续型变量进行预测的场景，尤其是在数据集具有非线性特征时。

页面内容是否对你有帮助？

有帮助

没帮助

tree.DecisionTreeRegressor是模型树还是回归树？

、、、

我的理解是：在回归树中:每片叶子的目标值计算为训练期间到达该叶的实例的目标值的平均值。在模型树中:每个叶的值是一个线性函数，它使用特征的子集，通过对在训练期间到达该叶的实例执行线性回归来确定。是科学工具中的tree.DecisionTreeRegressor -学习回归树还是模型树

浏览 11提问于2014-06-02得票数 2

回答已采纳

1回答

随机森林回归模型的改进

、、、、

我的工作是车辆占用率预测，我对此非常陌生，我使用随机森林回归来预测入住率。我确信模型不好，如何解释RMSE和MAE的结果。此外，这幅图也显示出这并不是很好的预测，我是否用正确的方法来预测车辆的占用率。随机森林回归是解决这一问题的好方法吗？如何改进模型的结果？如何解释结果

浏览 0提问于2021-07-27得票数 2

1回答

如何使用R来获得Azure ML中的置信区间？

、、、、

然而，考虑到这个问题的答案是No，并建议使用R，我试图弄清楚如何使用R来精确地对回归模型这样做。有没有人对从哪里找这个有什么建议？我的场景是，我使用Azure构建了一个增强的决策树回归模型，该模型输出了一个Scored Label列。但是，我不太了解回归分析，不足以编写R代码来使用输出模型来获得置信区间。我正在寻找任何的参考资料，可以帮助我理解如何在R(在与Azure ML连接)。

浏览 4提问于2016-09-25得票数 7

回答已采纳

2回答

为什么连续特征在决策树模型中比分类特征更重要？

、、、、

我的预测模型中既有分类特征，也有连续特征，我希望选择(和排序)最重要的特征。虽然决策树模型的性能远高于Logistic回归

浏览 0提问于2020-01-15得票数 9

回答已采纳

3回答

决策树性能

、

什么时候决策树表现良好？我绘制了一些图表，比较了基于决策树的模型和基于logistic回归的模型。决策树建立模型所需的时间较长，而LRclassifier模型的time.Moreover较小，logistic模型的f-score高于决策树。所以我想知道什么时候应该使用决策树。

浏览 2提问于2017-09-22得票数 1

1回答

机器学习的替代回归模型算法

、

我正在寻找不那么知名的回归模型，如果可能的话，寻找一个实现它的python库。广义线性模型，线性，拉索，岭.基于决策树的模型:购物车，随机森林，梯度提升决策树(xgb，lightgbm，catboost)Knn回归是否有较少人知道的回归算法？我正在寻找替代模式，以增加我的箭袋。

浏览 0提问于2020-07-23得票数 1

1回答

分类问题的RandomForestRegressor

、、、

在我第一次尝试完成这个任务时，我尝试使用sklearn的RandomForestClassifier来预测标签，但是模型过于贴切，测试的准确性也很差。

浏览 2提问于2020-01-06得票数 0

回答已采纳

1回答

决策树回归与局部加权回归相似吗？

、

我对决策树方法很陌生。对于决策树回归模型，它是否只适合于数据的分段步进函数？什么时候，为什么人们会更喜欢它，而不是一些传统的回归，如局部加权(黄土)回归？

浏览 0提问于2017-10-27得票数 3

1回答

如何构建决策树回归模型

、、

使用默认参数从x_train集构建决策树回归模型。x_train) 当我在上面做的时候，它是给予： TypeError: fit() missing 1 required positional argument: 'y' 我可以为一个训练数据集拟合一个模型吗

浏览 27提问于2019-05-15得票数 1

3回答

用来预测某项任务持续时间的算法

、

我想要建立一个模型，它能够预测未来任务的持续时间。我只知道了决策树(DT)，并试图将它应用于我的问题。结果的准确度分数为0.03。我认为DT是不合适的，因为时间是连续的，DT是用来分类的。

浏览 0提问于2016-12-01得票数 3

1回答

用于预测建模的决策树

、、

现在使用回归方法，我可以得到一个将辐射和通量联系起来的数学模型，并且可以用来预测新辐射度值的通量，而不需要其他新的输入。是否可以使用决策树或回归树来执行相同的操作？在回归中，有一个连接因变量和自变量的数学方程。使用决策树，您如何开发这样的模型？

浏览 0提问于2013-07-13得票数 0

1回答

用决策树方法识别多元回归自变量

、、

需要确定一个小的、可管理的独立变量集(IVs)用于多元回归。想知道如何使用数据驱动(数据挖掘)？办法如下：然后用这些作为多元回归中的IVs？因此，如果你知道的文章和研究论文，说明如何做上

浏览 0提问于2016-08-07得票数 1

回答已采纳

1回答

我能用机器学习模型作为优化问题的目标函数吗？

、、、、

我有一个数据集，我使用Sklearn决策树回归机器学习包为预测目的建立一个模型。随后，我试图利用scipy.optimize包来解决基于给定约束的最小解。但是，我不确定是否可以将决策树模型作为优化问题的目标函数。在这种情况下，应该采取什么办法呢？我曾经尝试过线性回归模型，比如LarsCV，它们工作得很好。但是在线性回归模型中，基本上可以从模型中提取系数和截获点。

浏览 1提问于2019-02-22得票数 7

1回答

我曾在同一标准化数据集(二进制分类)上训练过skearn中的Logistic回归和决策树。决策树的最重要系数是(按tree.feature_importances_排序)：对于logistic回归(按abs(logreg.coef_)排序)：“总日费用”是决策树中最重要的系数，而logistic回归则仅为第5位。S的“总日收费”比下一个决策树系数高出大约35%，但对于logreg来说，它几乎比最重要的系数少50%。我无法想象这种最优的分离超平面，至少在三维

浏览 0提问于2022-11-28得票数 0

1回答

如何在多类分类中找到每个类的特征重要性

、、、、

我编写了代码来查找整个数据集中的每个特性对于多类分类的重要性。现在，我希望找到多类分类中每个类的特性重要性，也就是说，我希望找到对于分类更重要的特性列表(每个类)。from sklearn.tree import DecisionTreeClassifiermodel = DecisionTreeClassifier() importance = model.feature_importan

浏览 5提问于2022-04-28得票数 -2

1回答

为什么随机森林能够“比线性回归更好地处理缺失的值和基数”？

、、、

我读过一个比较线性回归和随机森林回归的问题。我当时应该在两者之间作出选择，并解决一个问题。问题中提到，“随机森林也能比线性回归更好地处理缺失值和基数”。为什么会这样呢？这是怎么发生的？

浏览 0提问于2022-06-17得票数 1

1回答

如何减少Azure ML中决策树和决策林的运行时间

我试图为包含超过2000000行的数据集运行一个回归模型。在不调优模型超参数的情况下，尝试使用线性回归和增强决策树回归，没有达到预期的精度。因此，我尝试使用调优模型的超参数作为增强决策树，该模型运行超过20分钟。决策林还需要长时间的to0 (即使没有调优模型的超参数)。有没有办法在不影响结果准确性的情况下减少运行时？

浏览 0提问于2017-12-10得票数 0

回答已采纳

1回答