首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习100天-Day1703决策树回归&决策树的问题

说明:本文依据《Sklearn 与 TensorFlow 机器学习实用指南》完成,所有版权和解释权均归作者和翻译成员所有,我只是搬运和做注解。

第六章是关于决策树的学习

决策树是一种多功能机器学习算法, 即可以执行分类任务也可以执行回归任务, 甚至包括多输出(multioutput)任务。它是一种功能很强大的算法,可以对很复杂的数据集进行拟合。决策树也是随机森林的基本组成部分(见第 7 章),而随机森林是当今最强大的机器学习算法之一。

本章主要内容

讨论如何使用决策树进行训练,可视化和预测。

学习在Sklearn上面使用 CART 算法,并且探讨如何调整决策树让它可以用于执行回归任务。

讨论决策树目前存在的一些局限性。

本章使用数据为Sklearn中iris数据

源代码已经同步在github中

https://github.com/jwc19890114/-02-learning-file-100days

回归

决策树也可以完成回归任务

生成随机数

构建两个决策树回归模型,不同的深度

图中左侧显示的是max_depth=2模型的预测结果,如果你将max_depth=3设置为3,模型就会右侧显示的那样。注意每个区域的预测值总是该区域中实例的平均目标值。算法以一种使大多数训练实例尽可能接近该预测值的方式分割每个区域。注意图中的红线

现在按照上节所说的方法生成随机树图

很骚啊,可以看看。图和之前分类树的类似,但是预测的每个节点样本已经从一个类别变成了一个数值,这也就是为什么之前图中预测的红线是直的,因为那是一个数值啊,用预测值的方式来进行分割。

过拟合的决策树回归

一样,决策树在处理回归问题的时候如果不添加正则化,就会出现过拟合,设定超参数min_samples_leaf=5和10,会发现10的效果会好一些。

决策树的缺陷-不稳定性

决策树很容易理解和解释,易于使用且功能丰富而强大。

然而,它也有一些限制。

决策树很喜欢设定正交化的决策边界,(所有边界都是和某一个轴相垂直的),这使得它对训练数据集的旋转很敏感。

决策时的主要问题是它对训练数据的微小变化非常敏感

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190117A0II2R00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券