今天是在公众号上面读到了这个作者的文章,我觉得写的非常好,而且这个主页里面还有一些质量很高的文章,分享给大家,可以去关注一下;
问题 1:开发一个至少针对每个国家的金牌和总奖牌数的模型。包括对模型预测的不确定性 / 精度的估计以及模型性能的衡量。
实际上就是预测模型,下面学习一下这个随机森林;
下面的这个该算法的基本思路图:
随机森林是集成学习算法:
通过自助采样(Bootstrap Sampling)的方式从原始训练数据集中有放回地抽取多个子数据集,然后针对每个子数据集构建一个决策树。
在构建决策树的过程中,在每个节点处随机选择部分特征进行分裂,这样可以降低决策树之间的相关性。
最后将所有决策树的预测结果进行综合(例如简单平均)得到最终的预测结果。这种算法的优点是可以处理高维数据,具有较好的泛化能力,不易过拟合。
从理论角度看,随机森林通过集成多个决策树,利用了决策树对数据的非线性拟合能力,同时通过随机化操作提高了模型的泛化能力。在实际应用中,它可以处理多种类型的数据,不需要对数据进行复杂的假设。
适用范围:适用于预测各种类型的数值型目标变量,如这里的金牌数和总奖牌数。对于数据中存在噪声、缺失值等情况也有一定的鲁棒性。
局限性:模型解释性相对较差,因为是多个决策树的集成,难以直观地理解每个特征对结果的具体影响。
改进方向:可以尝试使用可解释性的随机森林算法,如通过计算特征重要性来提高模型的可解释性
上面的解释会发现,想要明白随机森林,需要先学习决策树:
决策树可以用于分类和回归。顾名思义,这个模型做出的决策类似于一棵树,由结点
和有向边
组成。整体的决策过程可以理解为是if-then
的结构。具体模型如下所示:
假设要用决策树预测一个人是否会购买某种产品。现在有一些特征,例如年龄、收入和是否有小孩等。决策树的构建过程如下:
(这里可以看出,决策树不仅能够处理离散问题,还能处理连续问题。只需要设置阈值即可)
现在问题来了:如何选择最优的特征呢?这里需要提及一个概念:信息增益
下面的例子是作者文章里面的例子,大家可以去看一下,了解一下信息增益,熵的相关概念,我觉的作者的解释非常清楚;
今天是初步了解这个随机森林的基本流程和决策树模型,之前只是听过但是不了解;
实际上,在我看来这个熵的意义就是衡量数据的离散程度(不确定性的程度)------这个就是本质理解;
基本流程和决策树模型,之前只是听过但是不了解;
实际上,在我看来这个熵的意义就是衡量数据的离散程度(不确定性的程度)------这个就是本质理解;
和高中化学里面的方程式里面的熵有异曲同工之妙,高中对象是能量,现在的对象是数据,仅此而已;