Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI说人“画” | 惊!可以用“随机森林”治疗选择恐惧症

AI说人“画” | 惊!可以用“随机森林”治疗选择恐惧症

作者头像
大数据文摘
发布于 2018-05-24 10:15:40
发布于 2018-05-24 10:15:40
4310
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘力荐!原创小视频【AI说人“画”】系列。用轻松的手绘方式,讲清楚一些有趣的AI概念。

我们有号称所有聪明人中最酷的那个小姐姐!用灵魂手绘和欢脱语言,来和你聊聊最枯燥的理论!请收看5分钟中文小视频节目▼

hello大家好,我是Vicky,今天我们来聊聊“随机森林”~

某一天,小红想看个电影,但是她不确定自己会不会喜欢这个片子,于是她问她的朋友小明意见,小明先是一脸懵,但是因为小红长得好看所以决定....帮帮她吧

因为小明对她的口味也不是很了解,所以他先给了小红一些电影和电视剧,看看小红是不是喜欢 ——这些就是被标记的“训练数据集”。

比如,她喜不喜欢看《使徒行者》,喜不喜欢看《法证先锋》等等。随后,小红也反馈一些信息,比如她问,《使徒行者》是不是林峰演的? 《法证先锋》是不是警匪剧呀?

她先问的就是在她看来信息量最大的问题 (最大化每个问题的信息增益)综合这些问题之后给出一个“喜欢”或者“不喜欢”的答案。

此时,小明就是小红的决策树。

但是就算小明再聪明,小明也只是一个人,也是太主观,所以说有可能过拟合。 于是,小红又问了小绿、小黄和小兰,请他们一起投票决定小红是否喜欢某部电影,这时,小红就建立了一个集成分类器,这种情况叫“森林”。

对,是“森林”

但是小红她不想问所有朋友一样的问题,她想给自己的模型增加点儿多样性,以免大家给她相同的答案。

所以她给小黄、小蓝和小绿各自的信息都是不一样的。毕竟她就是因为不清楚自己的喜好 才问大家的——她告诉小蓝她喜欢《爱情公寓》,可是原因可能有很多种,因为演员或者单纯觉得剧情好玩……所以她的朋友们肯定不能仅仅根据她喜欢《爱情公寓》这个事儿来给她建议。

她告诉小绿她喜欢《霸王别姬》,因为她既喜欢张国荣,又喜欢剧情,总之就是真爱。所以这时候,权重就应该多一点

总而言之,就是不能让小红的朋友们得到与小明相同的数据,而是给他们稍加扰动的版本。(你给每个朋友一个原始训练数据bootstrap抽样后的版本)。

再拿网易云音乐的推荐举例。

= =怎么还是小红

我特别喜欢粤语歌,尤其是古巨基和张敬轩和侧田的,我也想要一些类型相近的但是不限于他们三个的歌儿。所以,我就不收藏他们,但是多赞一些他们的歌,这样呢,当网易云音乐给我推荐到不是他们三的歌的时候,我再点开相似推荐,就可以有越来越多的相近类型,但是不拘泥于几个歌手的歌了~(?)

利用刚才说的这种集成方法,小红希望她的每个朋友都有些特别的建议——小蓝认为她真心更喜欢《爱情公寓》,小绿认为她喜欢王宝强的电影,小黄认为她什么都不喜欢看,就是逗他们玩……

这样很多的误差都成功被抹掉了。因此,小红的朋友现在形成了一个她电影偏好的装袋(bootstrap aggregated)森林。

然而还有一个问题:比如小红喜欢看古惑仔,可能真不是因为她喜欢郑伊健,也许由于是喜欢陈小春或者是其他原因她自己也不知道。

所以,她并不想要她的朋友们都基于一部电影中有没有郑伊健而给出建议。于是当每个朋友问她问题的时候,问的问题是从全部问题里随机选取的子集,当在建立决策树时,在节点选择分裂属性时加入一些随机性,

也就是说随机选择某些属性,或者在随机选择的子集里面选择属性。这个例子里面就是说,小红的朋友不能问某个电影里面有没有郑伊健这个问题,因此咱们之前给数据层面注入了随机性,现在在模型层面也注入了随机性~

好了,现在小红的所有朋友们就形成了一个随机森林。

所以“随机森林”就是样本抽样(行抽样)+ 特征抽样(列抽样)的树的集合。

小红终于满意了

注:本来呢这期做的是《人的审美从何而来》,也就是上次大家的投票结果。不过今天收到一些反馈说是很多童鞋想要一些“AI说人画”的模型算法视频,所以临时改的这个,准备得比较仓促~(嗯,看出来了哈哈哈哈哈……小编被痛扁ing)

谢谢大家 么么哒~

内容策划及主播:凉亮

监制:Sophie,魏子敏

后期:郭丽(终结者字幕)

文案:韩蕊

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
随机森林:基于决策树的集成学习算法
集成学习并不是一个具体的模型或者算法,而是一个解决问题的框架,其基本思想是综合参考多个模型的结果,以提高性能,类似三个臭皮匠,顶个诸葛亮,图示如下
生信修炼手册
2021/03/10
4590
随机森林:基于决策树的集成学习算法
随机森林RandomForest
曾听人说,几乎每一个搞机器学习的人,都有一个自己特别喜欢的算法。确实如此,像我这种每次被单词都从a开始背到渣渣,就对我首次接触的算法情有独钟。不管什么问题都喜欢从我钟爱的算法开始分析建模。
Coder的技术之路
2021/05/14
4960
随机森林RandomForest
随机森林算法
随机森林是一种灵活,易于使用的机器学习算法,即使没有超参数调整,也能在大多数情况下产生出色的结果。它也是最常用的算法之一,因为它简单,并且可以用于分类和回归任务。在这篇文章中,您将学习随机森林算法如何工作以及其他几个重要的事情。
银河1号
2019/04/12
1.2K0
随机森林算法
机器学习(12)——随机森林集成学习随机森林
前言:前面已经介绍了的几种算法,应该对算法有了一个基本的认识了,本章主要是在前面已经学到的基础上,对前面的算法模型进行整合操作,训练出效果更好的分类器模型。 集成学习 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器( weak learner)指那些分类准确率只稍微好于随机猜测的分类器( errorrate<0.5);集成算法的成功在于保证弱分类器的多样性( Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。 常见的集成学习思想有: (1)投
DC童生
2018/04/27
2.5K1
机器学习(12)——随机森林集成学习随机森林
决策树与随机森林
首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征x与logit之间是线性的,除非对x进行多维映射),而决策树可以找到非线性分割。
西西木木
2020/06/02
1.3K0
决策树与随机森林
随机森林算法及其实现(Random Forest)
  作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对随机森林的使用占有相当高的比例。此外,据我的个人了解来看,一大部分成功进入答辩的队伍也都选择了Random Forest 或者 GBDT 算法。所以可以看出,Random Forest在准确率方面还是相当有优势的。
全栈程序员站长
2022/07/25
1K0
随机森林算法及其实现(Random Forest)
【干货】机器学习基础算法之随机森林
【导读】在当今深度学习如此火热的背景下,其他基础的机器学习算法显得黯然失色,但是我们不得不承认深度学习并不能完全取代其他机器学习算法,诸如随机森林之类的算法凭借其灵活、易于使用、具有良好的可解释性等优
WZEARW
2018/04/16
1.1K0
【干货】机器学习基础算法之随机森林
【原创精品】随机森林在因子选择上的应用基于Matlab
随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。
量化投资与机器学习微信公众号
2018/01/29
3.2K0
【原创精品】随机森林在因子选择上的应用基于Matlab
随机森林算法(有监督学习)
一、随机森林算法的基本思想   随机森林的出现主要是为了解单一决策树可能出现的很大误差和overfitting的问题。这个算法的核心思想就是将多个不同的决策树进行组合,利用这种组合降低单一决策树有可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。   具体来讲,随机森林是用随机的方式建立一个森林,这个随机性表述的含义我们接下来会讲。随机森林是由很多的决策树组成,但每一棵决策树之间是没有关联的。在得到森林之后,当对一个新的样本进行判断或预测的时候,让森林中的每一棵决策树分别进行判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。
全栈程序员站长
2022/08/31
3950
随机森林算法(有监督学习)
随机森林随机选择特征的方法_随机森林步骤
摘要:当你读到这篇博客,如果你是大佬你可以选择跳过去,免得耽误时间,如果你和我一样刚刚入门算法调参不久,那么你肯定知道手动调参是多么的低效。那么现在我来整理一下近几日学习的笔记,和大家一起分享学习这个知识点。对于scikit-learn这个库我们应该都知道,可以从中导出随机森林分类器(RandomForestClassifier),当然也能导出其他分类器模块,在此不多赘述。在我们大致搭建好训练模型之后,我们需要确定RF分类器中的重要参数,从而可以得到具有最佳参数的最终模型。这次调参的内容主要分为三块:1.参数含义;2.网格搜索法内容;3.实战案例。
全栈程序员站长
2022/09/27
2K0
常见面试算法:决策树、随机森林和AdaBoost
决策树(Decision Tree)算法是一种基本的分类与回归方法,是最经常使用的数据挖掘算法之一。我们这章节只讨论用于分类的决策树。
机器学习AI算法工程
2019/10/28
1.3K0
常见面试算法:决策树、随机森林和AdaBoost
原理+代码|深入浅出Python随机森林预测实战
组合算法也叫集成学习,在金融行业或非图像识别领域,效果有时甚至比深度学习还要好。能够理解基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用Python实现集成学习中随机森林这个经典的方法来预测宽带客户的流失,主要将分为两个部分:
刘早起
2020/07/27
1.5K0
独家 | 一文读懂随机森林的解释和实现(附python代码)
本文从单棵决策树讲起,然后逐步解释了随机森林的工作原理,并使用sklearn中的随机森林对某个真实数据集进行预测。
数据派THU
2018/12/21
6.3K0
Python 实现随机森林预测宽带客户离网(附源数据与代码)
组合算法也叫集成学习,在金融行业或非图像识别领域,效果有时甚至比深度学习还要好。能够理解基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用Python实现集成学习中随机森林这个经典的方法来预测宽带客户的流失,主要将分为两个部分:
萝 卜
2020/08/02
1.5K2
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
是什么让一个电影受欢迎? 也许是影片的总收入(影院条目和DVD sellings)。我们选择的变量将是票房(gross) 或观众评分(movie_facebook_likes)。众所周知,关于IMDB和番茄的好评与高收益的电影有关。我们的分析旨在回答以下研究问题:“我们能在仅知道它的类型,流派(流派变量),MPAA评级(MPAA_RATING变量),发布一个月(thtr_rel_month变量),发布日(thtr_rel_day变量),IMDB的票数(imdb_num_votes变量),评论家得分(critics_score变量)和最佳影片提名(best_pic_nom变量)等变量能否预测一部电影收入?
拓端
2023/12/08
3640
随机森林(原理/样例实现/参数调优)
1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题。 决策树算法有这几种:ID3、C4.5、CART,基于决策树的算法有bagging、随机森林、GBDT等。 决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策的算法。
全栈程序员站长
2022/07/25
1.1K0
随机森林(原理/样例实现/参数调优)
独家 | 手把手教随机森林
本文是数据派研究部“集成学习月”的第三篇文章,本月将陆续发布关于集中学习的话题内容,月末将有答题互动活动来赢奖,欢迎随时留言讨论相关话题。 随机森林-概述 当变量的数量非常庞大时,你将采取什么方法来处理数据? 通常情况下,当问题非常庞杂时,我们需要一群专家而不是一个专家来解决问题。例如Linux,它是一个非常复杂的系统,因此需要成百上千的专家来搭建。 以此类推,我们能否将许多专家的决策力,并结合其在专业领域的专业知识,应用于数据科学呢?现在有一种称为“随机森林”的技术,它就是使用集体决策来改善单一决策产
数据派THU
2018/01/30
8780
独家 | 手把手教随机森林
理解随机森林:基于Python的实现和解释
感谢 Scikit-Learn 这样的库,让我们现在可以非常轻松地使用 Python 实现任何机器学习算法。事实上操作起来很简单,我们往往无需了解任何有关模型内部工作方式的任何知识就能使用它。尽管我们并不需要理解所有细节,但了解一些有关模型训练和预测方式的思路仍然会有很大的帮助。这使得我们可以在模型表现不如预期时对模型进行诊断,或解释我们的模型做决策的方式——这能帮助我们说服他人使用我们的模型。
机器之心
2019/01/02
1.1K0
如何用随机森林算法,在深海养肥一群鱼
内容一览:分析并识别鱼类行为,对于养殖业具有重要意义,福林德斯大学博士生 Thomas Clarke 研发了一个机器学习模型,可以借助随机森林算法识别鱼类动作。
HyperAI超神经
2021/07/06
4750
决策树与随机森林(从入门到精通)[通俗易懂]
决策树(decision tree)是一种基本的分类与回归方法,本文主要讨论用于分类的决策树。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。而随机森林则是由多个决策树所构成的一种分类器,更准确的说,随机森林是由多个弱分类器组合形成的强分类器。
全栈程序员站长
2022/08/01
7660
决策树与随机森林(从入门到精通)[通俗易懂]
相关推荐
随机森林:基于决策树的集成学习算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档