首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

3分钟看懂深度学习,强化学习,监督式学习,非监督学习都是什么鬼

第四范式授权转载

深度学习监督式学习非监督式学习强化学习到底都是什么鬼呢?小式粗暴地认为,不管是机器学习深度学习监督式学习,终究都离不开学习二字。小式理解,学习就是通过教授或经验,实现举一反三的能力。下面,经过大魔王001的讲解,小式和大家分享下自己了解到的东东。

深度学习:换了马甲的神经网络

看到这段时,本来以为已经理解了的小式还是受到了惊吓。那么,监督式非监督式半监督式学习又是何方神圣呢?

“有老师教”的监督式学习

维基上说,监督式学习是一个机器学习中的方法,可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。一个监督式学习者的任务在观察完一些训练范例后,去预测这个模式对任何可能出现的输入值的输出。要达到此目的,学习者必须以"合理"(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。

翻译成人话:监督式学习就是一个人在学习时,有老师告诉它标准答案,让它知道什么是对,什么是错,这样经过一定程度的训练,他就能根据经验总结特征,然后在出现类似的情景时,就能根据特征自行判断对错。

“自学成才”的学霸-非监督式学习

刚才说了监督式学习就是“有老师教”,那么自然地,非监督式学习就是没老师告诉它一个标准的答案,要依靠自己“自学成才”——就是通过一大堆学习资料(数据),在无人指导的情况下,努力通过自己的观察,挖掘出隐藏在数据下的结构,得出特征。等等,这个感觉怎么有点熟悉?

虽然小式把非监督学习比成学霸,但监督式学习和非监督式学习并无高下之分。

那什么是半监督式学习呢?就是其训练的数据一部分是有参考答案的,一部分是没有的。为什么会这样呢?因为隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到相对更好的分类结果。

举个例子,判断我司谁是大魔王?如果只有我(女生)和三个大魔王(都是男生),那么监督式学习依据已知的性别标签,很可能把判断大魔王标准定为:男生是大魔王。但是如果我又叫了二十个人过来,而不给任何可以参考的标签,就可以分析出更多大魔王的相似特征:如高智很商,能力极强,行业大牛等等。

吃一堑长一智的强化学习

在大魔王给我讲解强化学习前,小式先去维基和百度了强化学习的概念

维基:强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。再看百度:所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大

不知道你们,反正小式看完就是“债见”的感觉。还好,经过大魔王点化,小式终于明白,强化学习就好比不给机器任何指导,让它在一个迷宫里自己走动,如果碰壁了,就pass掉这条路,如果最后找到了出口,就记下这个正确的路子。

说白了,强化学习就是个吃一堑长一智的过程。但因为强化学习强调的是取得最大化的回报,所以这里的吃一堑长一智基于的不是一个当下的反馈,而是基于全局的一个整体回报。拿阿法狗举例,强化学习不是立刻告诉阿法狗当下走的这一步棋好不好,而是追求一整盘棋下得好不好。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180209B0AQS400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券