Data Analyst
帮你做决定
问你一个问题,“跳广场舞的大妈的儿子,今天出门要带伞不?”
很无厘头对不对?
你可以这样回答,“带不带伞需要看具体的情况,如果今天烈日高照而且大妈儿子今天计划走路去上班恰好这个人非常抠门,那么他需要带上雨伞;否则,不需要带雨伞”。
生活中,会遇到很多看似繁复、难以抉择的问题,例如高考要不要选择理科、是去社会闯一闯还是留在体制内、投资时选择股票还是基金?决策树就是将所有影响决定的因素幻化成一个一个的if else,从而帮你做出决定。
Data Analyst
好解释、速度快
决策树是一种智能的分类方法,同时,它也是一种回归的方法,其Y值既可以是分类型变量,也可以是连续型变量。与神经网络和logistic模型相比,决策树的优点是结果的可读性非常强、运行速度非常快:
Data Analyst
建树需要面对的问题
构建决策树需要时刻考量三个问题:
如何辨别变量间的重要性,即树根的发芽之处是在哪里,每条观测都唯一的对应一条路径,路径特征的选择逻辑是什么,为什么树是这样的生长趋势,其他形状的决策树是否更为合适?
变量拆分的原则是什么?
Data Analyst
特征选择的衡量指标
通常,进行决策树特征选择时,常常参考熵/基尼系数与分类误差率这三个指标,他们均用于评价叶节点中目标分类纯度的好坏,取值越高即表示这个叶节点的纯度越低。即:
用以表示信息的不确定程度,熵越大,随机变量的不确定性越大。
度量随机变量不确定性的大小,基尼系数越大表示数据的不确定性越高,基尼系数越小表示数据的不确定性越低,基尼系数为0表示数据集中所有样本类别均相同。
Data Analyst
树的形态需要把控
构建决策树时需要注意,树的枝叶既不能过于干瘪,也不能过于繁盛。如果枝叶较小,则该叶中样本数量过小,此时并不足以说明该群体的特征;如果枝叶特别繁盛,树的主干较为突出,则会使得群体中共同的行为隐藏在一起,无法区分。
因此,树的形态需要适当把控。
本文分享自 Data Analyst 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!