第四范式授权转载
深度学习监督式学习非监督式学习强化学习到底都是什么鬼呢?小式粗暴地认为,不管是机器学习深度学习监督式学习,终究都离不开学习二字。小式理解,学习就是通过教授或经验,实现举一反三的能力。下面,经过大魔王001的讲解,小式和大家分享下自己了解到的东东。
深度学习:换了马甲的神经网络
看到这段时,本来以为已经理解了的小式还是受到了惊吓。那么,监督式非监督式半监督式学习又是何方神圣呢?
“有老师教”的监督式学习
维基上说,监督式学习是一个机器学习中的方法,可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。一个监督式学习者的任务在观察完一些训练范例后,去预测这个模式对任何可能出现的输入值的输出。要达到此目的,学习者必须以"合理"(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。
翻译成人话:监督式学习就是一个人在学习时,有老师告诉它标准答案,让它知道什么是对,什么是错,这样经过一定程度的训练,他就能根据经验总结特征,然后在出现类似的情景时,就能根据特征自行判断对错。
“自学成才”的学霸-非监督式学习
刚才说了监督式学习就是“有老师教”,那么自然地,非监督式学习就是没老师告诉它一个标准的答案,要依靠自己“自学成才”——就是通过一大堆学习资料(数据),在无人指导的情况下,努力通过自己的观察,挖掘出隐藏在数据下的结构,得出特征。等等,这个感觉怎么有点熟悉?
虽然小式把非监督学习比成学霸,但监督式学习和非监督式学习并无高下之分。
那什么是半监督式学习呢?就是其训练的数据一部分是有参考答案的,一部分是没有的。为什么会这样呢?因为隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到相对更好的分类结果。
举个例子,判断我司谁是大魔王?如果只有我(女生)和三个大魔王(都是男生),那么监督式学习依据已知的性别标签,很可能把判断大魔王标准定为:男生是大魔王。但是如果我又叫了二十个人过来,而不给任何可以参考的标签,就可以分析出更多大魔王的相似特征:如高智很商,能力极强,行业大牛等等。
吃一堑长一智的强化学习
在大魔王给我讲解强化学习前,小式先去维基和百度了强化学习的概念:
维基:强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。再看百度:所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。
不知道你们,反正小式看完就是“债见”的感觉。还好,经过大魔王点化,小式终于明白,强化学习就好比不给机器任何指导,让它在一个迷宫里自己走动,如果碰壁了,就pass掉这条路,如果最后找到了出口,就记下这个正确的路子。
说白了,强化学习就是个吃一堑长一智的过程。但因为强化学习强调的是取得最大化的回报,所以这里的吃一堑长一智基于的不是一个当下的反馈,而是基于全局的一个整体回报。拿阿法狗举例,强化学习不是立刻告诉阿法狗当下走的这一步棋好不好,而是追求一整盘棋下得好不好。
领取专属 10元无门槛券
私享最新 技术干货