前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >有监督学习VS无监督学习「建议收藏」

有监督学习VS无监督学习「建议收藏」

作者头像
全栈程序员站长
发布于 2022-09-01 04:02:00
发布于 2022-09-01 04:02:00
5660
举报

大家好,又见面了,我是你们的朋友全栈君。

事先先说明一下:

标签就是指的分好的类别,指明标签就是告诉计算机,这个样本属于哪一类。对于聚类的话,是事先类别都没定义好,但是类别的个数一定要告诉计算机

监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。在社会中,我们在很小的时候就被大人教授这是鸟啊,那是猪啊,这个是西瓜、南瓜,这个可以吃、那个不能吃啊之类的,我们眼里见到的这些景物食物就是机器学习中的输入,大人们告诉我们的结果就是输出,久而久之,当我们见的多了,大人们说的多了,我们脑中就会形成一个抽象的模型,下次在没有大人提醒的时候看见别墅或者洋楼,我们也能辨别出来这是房子,不能吃,房子本身也不能飞等信息。上学的时候,老师教认字、数学公式啊、英语单词等等,我们在下次碰到的时候,也能区分开并识别它们。这就是监督学习,它在我们生活中无处不在。

无监督学习(unsupervised learning):我们事先没有任何训练数据样本,需要直接对数据进行建模。比如我们去参观一个画展,我们对艺术一无所知,但是欣赏完很多幅作品之后,我们面对一幅新的作品之后,至少可以知道这幅作品是什么派别的吧,比如更抽象一些还是更写实一点,虽然不能很清楚的了解这幅画的含义,但是至少我们可以把它分为哪一类。再比如我们在电影院看电影,对于之前没有学过相关电影艺术知识的我们,可能不知道什么是一部好电影,什么是一部不好的电影,可是在观看了很多部电影之后,我们脑中对电影就有了一个潜在的认识,当我们再次坐在电影院认真观看新上映的电影时,脑中就会对这部电影产生一个评价:怎么这电影这么不好啊,整个故事线是混乱的,一点也不清晰,比我之前看过的那些电影差远了,人物的性格也没有表现出来,关键是电影主题还搞偏了;哎呀,这个电影拍得确实好啊,故事情节和人物性格都很鲜明,而且场景很逼真,主角的实力表演加上他与生俱来的忧郁眼神一下把人物演活了。

再给大家举一个无监督学习的例子。远古时期,我们的祖先打猎吃肉,他们本身之前是没有经验而言的,当有人用很粗的石头去割动物的皮的时候,发现很难把皮隔开,但是又有人用很薄的石头去割,发现比别人更加容易的隔开动物的毛皮,于是,第二天、第三天、……,他们就知道了需要寻找比较薄的石头片来割。这些就是无监督学习的思想,外界没有经验和训练数据样本提供给它们,完全靠自己摸索。

这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。

在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。

目前分类算法的效果还是不错的,但相对来讲,聚类算法就有些惨不忍睹了。确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题,答案(标签)是非常重要的,假设两个完全相同的人进入高中,一个正常学习,另一人做的所有题目都没有答案,那么想必第一个人高考会发挥更好,第二个人会发疯。

这时各位可能要问,既然分类如此之好,聚类如此之不靠谱,那为何我们还可以容忍聚类的存在?因为在实际应用中,标签的获取常常需要极大的人工工作量,有时甚至非常困难。例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签……

这时有人可能会想,难道有监督学习和无监督学习就是非黑即白的关系吗?有没有灰呢?Good idea。灰是存在的。二者的中间带就是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。(此处大量忽略细节)

因此,learning家族的整体构造是这样的: 有监督学习(分类,回归) 半监督学习(分类,回归),transductive learning(分类,回归) 半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy) 无监督学习(聚类)

参考文献: [1] 各种教材 [2] Semi-Supervised Learning Tutorial, http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/141582.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习(二):有监督学习、无监督学习和半监督学习
一、基本概念 1 特征(feature) 数据的特征。 *举例:书的内容* 2 标签(label) 数据的标签。 *举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。* 3 学习(learning) 将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。 *举例:把很多书交给一个学生,培养他给书本分类的能力。* 4 分类(c
海天一树
2018/04/17
1.8K0
机器学习(二):有监督学习、无监督学习和半监督学习
有监督学习、无监督学习以及半监督学习详解
相信大家在开始学习机器学习的入门时,首先接触的概念就是监督学习、无监督学习以及半监督学习。在我们开始讲解之前,我们先回顾一下什么是机器学习(ML)?
全栈程序员站长
2022/09/01
2.5K0
监督学习型神经网络
朋友们,如需转载请标明出处:http://blog.csdn.net/jiangjunshow
全栈程序员站长
2022/09/01
2570
机器学习中的监督学习、无监督学习、半监督学习和强化学习,这四种学习方式到底有啥区别?
人工智能中的机器学习是指让计算机通过学习数据的方式改善性能。在机器学习中,有四种主要的学习方式:监督学习、无监督学习、半监督学习和强化学习。本文将详细介绍这四种学习方式的概念、应用和优缺点。
网络技术联盟站
2023/05/12
14.9K0
机器学习中的监督学习、无监督学习、半监督学习和强化学习,这四种学习方式到底有啥区别?
【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习
一个月前和实验室的伙伴们打了一个跨领域半监督依存句法分析的比赛,比赛成绩出乎意料,在封闭测试下是第一名。这也是我第一次接触半监督学习。最近师兄在写这个评测论文,我也在帮忙准备下实验数据。昨天师兄发现了一个极其简单的半监督方法论文,挺后悔这么简单当初没用上。今天就来说说这个很简单的论文。
zenRRan
2019/07/04
1.8K0
【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习
监督学习与无监督学习
机器学习如果按照训练样本标签的有无可以分为以下两种常用方法。 有监督学习(supervised learning)和无监督学习(unsupervised learning)。
里克贝斯
2021/05/21
1.1K0
【干货】监督学习与无监督学习简介
【导读】本文是一篇入门级的概念介绍文章,主要带大家了解一下监督学习和无监督学习,理解这两类机器学习算法的不同,以及偏差和方差详细阐述。这两类方法是机器学习领域中的最主要任务,由于近年来机器学习、深度学习的火热,目前学术界在监督学习方面取得了极大的进展,在图像、语音、自然语言处理等都取得很大成果。但是自然界中大多数数据都是无标签的,因此,无监督学习在未来很广泛的基础和前景。本文我们带大家一起来了解一下监督学习和无监督学习的主要内容和用途吧。 编译 | 专知 参与 | Yingying 监督学习与无监督学习 理
WZEARW
2018/04/13
1.9K0
【干货】监督学习与无监督学习简介
监督学习和无监督学习区别
机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等。
全栈程序员站长
2022/08/24
1.7K0
监督学习和无监督学习区别
机器学习入门:从零开始理解监督学习与无监督学习
翻译过来就是:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
小宇-xiaoyu
2024/12/27
3550
机器学习入门:从零开始理解监督学习与无监督学习
一文读懂监督学习、无监督学习、半监督学习、强化学习这四种深度学习方式
一般说来,训练深度学习网络的方式主要有四种:监督、无监督、半监督和强化学习。在接下来的文章中,计算机视觉战队将逐个解释这些方法背后所蕴含的理论知识。除此之外,计算机视觉战队将分享文献中经常碰到的术语,并提供与数学相关的更多资源。 监督学习(Supervised Learning) 监督学习是使用已知正确答案的示例来训练网络的。想象一下,我们可以训练一个网络,让其从照片库中(其中包含你父母的照片)识别出你父母的照片。以下就是我们在这个假设场景中所要采取的步骤。 步骤1:数据集的创建和分类 首先,我们要浏览你的
计算机视觉研究院
2018/04/17
3.6K0
机器学习之有监督学习,无监督学习,半监督学习
机器学习是数据分析和数据挖掘的一种比较常用,比较好的手段从有无监督的角度,可以分为三类:
全栈程序员站长
2022/09/01
7530
OpenAI 研究员:数据不足时,如何实现监督学习
作者丨Lilian Weng 编译丨丛末 编辑丨陈彩娴 现实应用中,数据易得,而有标签的数据少有。 一般而言,当监督学习任务面临标签数据不足问题时,可以考虑以下四种解决办法: 1.预训练+微调:首先在一个大规模无监督数据语料库上对一个强大的任务无关模型进行预训练(例如通过自监督学习在自由文本上对语言模型进行预训练,或者在无标签图像上对视觉模型进行预训练),之后再使用一小组标签样本在下游任务上对该模型进行微调。 2.半监督学习:同时从标签样本和无标签样本中学习,研究者使用该方法在视觉任务上进行了大量研究。
AI科技评论
2022/07/19
9830
OpenAI 研究员:数据不足时,如何实现监督学习
《机器学习》笔记-半监督学习(13)
如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习,现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的理解,包括过程中的疑问,并尽量的和实际的工程应用和现实场景进行结合,使得知识不只是停留在理论层面,而是能够更好的指导实践。记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。
机器学习算法工程师
2018/07/27
1.3K0
《机器学习》笔记-半监督学习(13)
【机器学习笔记】有监督学习和无监督学习
概念: 从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说, 机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
全栈程序员站长
2022/09/01
3.4K0
【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )
1 . 数据挖掘任务分类 : 数据挖掘任务分为 模型挖掘 和 模式挖掘 , 其中 模型挖掘 包含 描述建模 和 预测建模 ;
韩曙亮
2023/03/27
1.9K0
强数据所难!SSL(半监督学习)结合GAN如何?
众所周知,标注工作往往费时耗力甚至不可行。而类似深度学习等的机器学习方法,在缺乏带标签数据下,效果大打折扣甚至无法施展。
公众号机器学习与AI生成创作
2020/04/27
1.3K0
自监督学习和无监督学习的区别
无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务
全栈程序员站长
2022/11/04
1.3K0
Python+sklearn机器学习应该了解的33个基本概念
机器学习(Machine Learning)根据已知数据来不断学习和积累经验,然后总结出规律并尝试预测未知数据的属性,是一门综合性非常强的多领域交叉学科,涉及线性代数、概率论、逼近论、凸分析、算法复杂度理论等多门学科。
Python小屋屋主
2019/05/17
1K0
半监督学习算法及其实现
在机器学习领域,数据是驱动模型训练的核心资源。然而,获取大量带标签的数据往往是昂贵且耗时的过程。半监督学习(Semi-Supervised Learning, SSL)通过利用大量未标记的数据和少量标记的数据,有效地缓解了这一问题。SSL不仅能够减少对标记数据的依赖,还能够在许多实际应用中提升模型的性能。
TechLead
2024/07/05
1.1K0
半监督学习算法及其实现
机器学习--机器学习的分类
在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出
风骨散人Chiam
2020/10/28
6970
推荐阅读
相关推荐
机器学习(二):有监督学习、无监督学习和半监督学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档