首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >关于机器学习,不可不知的15个概念

关于机器学习,不可不知的15个概念

作者头像
AI科技大本营
发布于 2023-05-08 05:47:39
发布于 2023-05-08 05:47:39
35300
代码可运行
举报
运行总次数:0
代码可运行

‍‍

作者:布奇·昆托(Butch Quinto)

来源:大数据DT(ID:hzdashuju)

有监督学习

有监督学习是利用训练数据集进行预测的机器学习任务。有监督学习可以分为分类回归。回归用于预测“价格”“温度”或“距离”等连续值,而分类用于预测“是”或“否”、“垃圾邮件”或“非垃圾邮件”、“恶性”或“良性”等类别。

分类包含三种类型的分类任务:二元分类多类别分类多标签分类。回归中包含线性回归和生存回归。

无监督学习

无监督学习是一种机器学习任务,它在不需要标记响应的情况下发现数据集中隐藏的模式和结构。当你只能访问输入数据,而训练数据不可用或难以获取时,无监督学习是理想的选择。常用的方法包括聚类、主题建模、异常检测、推荐和主成分分析。

半监督学习

在某些情况下,获取标记数据是昂贵且耗时的。在响应标记很少的情况下,半监督学习结合有监督和无监督学习技术进行预测。在半监督学习中,利用未标记数据对标记数据进行扩充以提高模型准确率。

强化学习

强化学习试图通过不断从尝试的过程和错误的结果来进行学习,确定哪种行为能带来最大的回报。强化学习有三个组成部分:智能体(决策者或学习者)、环境(智能体与之交互的内容)和行为(智能体可以执行的内容)。这类学习通常用于游戏、导航和机器人技术。

深度学习

深度学习是机器学习和人工智能的一个分支,它使用深度的、多层的人工神经网络。最近人工智能领域的许多突破都归功于深度学习。

神经网络

神经网络是一类类似于人脑中相互连接的神经元的算法。一个神经网络包含多层结构,每一层由相互连接的节点组成。通常有一个输入层、一个或多个隐藏层和一个输出层。

卷积神经网络

卷积神经网络(convnet或CNN)是一种特别擅长分析图的神经网络(尽管它们也可以应用于音频和文本数据)。卷积神经网络各层中的神经元按高度、宽度和深度三个维度排列。我将在第7章更详细地介绍深度学习和深度卷积神经网络。

模型评估

在分类中,每个数据点都有一个已知的标签和一个模型生成的预测类别。通过比较已知的标签和预测类别为每个数据点进行划分,结果可以分为四个类别:

  • 真阳性(TP),预测类别和标签均为阳性;
  • 真阴性(TN),预测类别和标签均为阴性;
  • 假阳性(FP),预测类别为阳性但标签为阴性;
  • 假阴性(FN),预测类别为阴性但标签为阳性。

这四个值构成了大多数分类任务评估指标的基础。它们通常在一个叫作混淆矩阵的表格中呈现(如表1-1)。

▼表1-1 混淆矩阵

准确率

准确率是分类模型的一个评估指标。它定义为正确预测数除以预测总数。

在数据集不平衡的情况下,准确率不是理想的指标。举例说明,假设一个分类任务有90个阴性和10个阳性样本;将所有样本分类为阴性会得到0.90的准确率分数。精度和召回率是评估用例不平衡数据的训练模型的较好指标。

精度

精度定义为真阳性数除以真阳性数加上假阳性数的和。精度表明当模型的预测为阳性时,模型正确的概率。例如,如果你的模型预测了100个癌症的发生,但是其中10个是错误的预测,那么你的模型的精度是90%。在假阳性较高的情况下,精度是一个很好的指标。

召回率

召回率是一个很好的指标,可用于假阴性较高的情况。召回率的定义是真阳性数除以真阳性数加上假阴性数的和。

F1度量

F1度量或F1分数是精度和召回率的调和平均值或加权平均值。它是评估多类别分类器的常用性能指标。在类别分布不均的情况下,这也是一个很好的度量。最好的F1分数是1,而最差的分数是0。一个好的F1度量意味着你有较低的假阴性和较低的假阳性。F1度量定义如下:

AUROC

接收者操作特征曲线下面积(AUROC)是评估二元分类器性能的常用指标。接收者操作特征曲线(ROC)是依据真阳性率与假阳性率绘制的图。曲线下面积(AUC)是ROC曲线下的面积。

在对随机阳性样本和随机阴性样本进行预测时,将阳性样本预测为阳性的概率假设为P0,将阴性样本预测为阳性的概率假设为P1,AUC就是P0大于P1的概率。曲线下的面积越大(AUROC越接近1.0),模型的性能越好。AUROC为0.5的模型是无用的,因为它的预测准确率和随机猜测的准确率一样。

过拟合与欠拟合

模型性能差是由过拟合或欠拟合引起的。

过拟合是指一个模型太适合训练数据。过拟合的模型在训练数据上表现良好,但在新的、看不见的数据上表现较差。

过拟合的反面是欠拟合。由于拟合不足,模型过于简单,没有学习训练数据集中的相关模式,这可能是因为模型被过度规范化或需要更长时间的训练。

模型能够很好地适应新的、看不见的数据,这种能力被称为泛化。这是每个模型优化练习的目标。

防止过拟合的几种方法包括使用更多的数据或特征子集、交叉验证、删除、修剪、提前停止和正则化。对于深度学习,数据增强是一种常见的正则化形式。

为了减少欠拟合,建议选择添加更多相关的特征。对于深度学习,考虑在一个层中添加更多的节点或在神经网络中添加更多的层,以增加模型的容量。

模型选择

模型选择包括评估拟合的机器学习模型,并尝试用用户指定的超参数组合来拟合底层估计器,再输出最佳模型。通过使用Spark MLlib,模型选择由CrossValidator和TrainValidationSplit估计器执行。

CrossValidator对超参数调整和模型选择执行k-fold交叉验证和网格搜索。它将数据集分割成一组随机的、不重叠的分区,作为训练和测试数据集。例如,如果k=3,k-fold交叉验证将生成3对训练和测试数据集(每一对仅用作一次测试数据集),其中每一对使用2/3作为训练数据,1/3用于测试。

TrainValidationSplit是用于超参数组合的另一种估计器。与k-fold交叉验证(这是一个昂贵的操作)相反,TrainValidationSplit只对每个参数组合求值一次,而不是k次。

关于作者:布奇·昆托(Butch Quinto),在银行与金融、电信、政府部门、公共事业、交通运输、电子商务、零售业、制造业和生物信息学等多个行业拥有20多年的技术和领导经验。他是Next-Generation Big Data(Apress,2018)的作者,也是人工智能促进协会(AAAI)和美国科学促进会(AAAS)的成员。

本文摘编自《基于Spark的下一代机器学习》。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
推荐阅读后疫情时代,RTC期待新的场景大爆蓝色起源载人火箭7月首飞,贝索斯即将实现儿时愿望
干货!机器学习中,如何优化数据性你的 AI 算法模型安全吗?来 AI 安全测试基准平台测试
点个“在看”,宠我一下

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习模型性能的10个指标
尽管大模型非常强大, 但是解决实践的问题也可以不全部依赖于大模型。一个不太确切的类比,解释现实中的物理现象,未必要用到量子力学。有些相对简单的问题,或许一个统计分布就足够了。对机器学习而言, 也不用言必深度学习与神经网络,关键在于明确问题的边界。
半吊子全栈工匠
2023/12/28
4.5K0
机器学习模型性能的10个指标
【剑指Offer】机器学习面试题(1)
好久没有整理面试题了,最近总有读者翻出之前的面试题,问我会不会继续整理,今天给大家分享一波自己整理的常见机器学习面试题。
PM小王
2019/07/02
6320
【剑指Offer】机器学习面试题(1)
机器学习中需要知道的一些重要主题
机器学习现在是一个热门话题,每个人都在尝试获取有关该主题的任何信息。有了关于机器学习的大量信息,人们可能会不知所措。在这篇文章中,我列出了你需要了解的一些机器学习中最重要的主题,以及一些可以帮助你进一步阅读你感兴趣的主题的资源。
磐创AI
2019/09/27
8040
机器学习中需要知道的一些重要主题
机器学习算法常用指标总结
准确度是衡量模型性能的最基本指标。它的定义非常简单,就是模型预测正确的次数占总预测次数的比例。准确度的计算公式是:
zhangjiqun
2024/12/14
3260
机器学习算法常用指标总结
AI技术实战指南:机器学习模型训练、调优与部署的完整流程
在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。机器学习作为 AI 的核心领域之一,使得计算机能够从数据中自动学习模式和规律,从而实现各种智能任务。从图像识别到自然语言处理,从推荐系统到预测分析,机器学习的应用无处不在。
小白的大数据之旅
2025/05/24
4740
AI技术实战指南:机器学习模型训练、调优与部署的完整流程
AI人工智能、机器学习 面试题(2020最新版)
深度学习(DeepLearning, DL)和机器学习(Machine Learning, ML)的关系是什么?
用户7164815
2020/04/10
3.6K0
机器学习测试题(上)
人工智能一直助力着科技发展,新兴的机器学习正推动着各领域的进步。如今,机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统,机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。 1.以下哪一种方法最适合在n(n>1)维空间中做异常点检测。 A 正态分布图 B 盒图 C 马氏距离 D 散点图 答案:C 马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法,以卡方分布为基础,表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联
小莹莹
2018/04/19
2.7K0
机器学习测试题(上)
AI/ML 基础知识与常用术语全解析
在当今科技飞速发展的时代,人工智能(AI)和机器学习(ML)已经成为了热门话题。从智能手机中的语音助手到自动驾驶汽车,AI 和 ML 技术正在改变着我们的生活方式。然而,对于许多人来说,AI 和 ML 仍然是神秘而复杂的领域。本文将详细介绍 AI/ML 的基础知识和常用术语,帮助读者更好地理解这一领域。
Pocker_Spades_A
2024/12/24
2630
AI/ML 基础知识与常用术语全解析
深度学习500问——Chapter02:机器学习基础(1)
机器学习起源于上世纪50年代,1959年在IBM工作的Arthur Samuel设计了一个下棋程序,这个程序具有学习的能力,它可以在不断的对弈中提高自己。由此提出了“机器学习”这个概念,它是一个结合了多个学科,如概率论、优化理论、统计等,最终在计算机上实现自我获取新知识,学习改善自己的这样一个研究领域。机器学习是人工智能的一个子集,目前已经发展处许多有用的方法,比如支持向量机,回归,决策树,随机森林,强化学习,集成学习,深度学习等等,一定程度上可以帮助人们完成一些数据预测,自动化,自动决策,最优化等初步替代脑力的任务。本章我们主要介绍下机器学习的基本概念、监督学习、分类算法、逻辑回归、代价函数、损失函数、LDA、PCA、决策树、支持向量机、EM算法、聚类和降维以及模型评估有哪些方法、指标等等。
JOYCE_Leo16
2024/03/19
2090
深度学习500问——Chapter02:机器学习基础(1)
机器学习基础——概述
        机器学习是一种利用数据构建模型并通过算法进行预测或分类的技术。在机器学习中,计算机通过训练算法从已有数据中发现模式,以提高其处理新数据的能力。其核心思想是让计算机在没有明确编程的情况下,从数据中自动学习。
星辰与你
2024/10/17
1990
A.深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解
A.深度学习基础入门篇二:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解
汀丶人工智能
2023/04/05
1.8K0
A.深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解
A.深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解
机器学习的评价指标有精度、精确率、召回率、P-R曲线、F1 值、TPR、FPR、ROC、AUC等指标,还有在生物领域常用的敏感性、特异性等指标。
汀丶人工智能
2023/04/06
1.8K0
A.深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解
超强,必会的机器学习评估指标
构建机器学习模型的关键步骤是检查其性能,这是通过使用验证指标来完成的。 选择正确的验证指标就像选择一副水晶球:它使我们能够以清晰的视野看到模型的性能。 在本指南中,我们将探讨分类和回归的基本指标和有效评估模型的知识。 学习何时使用每个指标、优点和缺点以及如何在 Python 中实现它们。
算法金
2024/06/28
3790
超强,必会的机器学习评估指标
【ML小白】10 个机器学习 Q&A,面试必知!
本文整理了一些最常见的机器学习面试问题及其相应的回答。机器学习有志者以及经验丰富的ML专业人员可以在面试前以此巩固其基础知识。
昱良
2019/09/12
4640
【ML小白】10 个机器学习 Q&A,面试必知!
第一章(1.3)机器学习概念图谱
机器学习(machine learning)是最近非常火的一个领域,关于其一些基本定义百度百科、维基百科或者网上随便都可以找到很多资料,所以这里不做过多解释。
两只橙
2019/01/23
4310
第一章(1.3)机器学习概念图谱
【机器学习】机器学习系列:(一)机器学习基础
本章我们简要介绍下机器学习(Machine Learning)的基本概念。主要介绍机器学习算法的应用,监督学习和无监督学习(supervised-unsupervised learning)的应用场景,训练和测试数据的用法,学习效果评估方式。最后,对scikit-learn进行一些简单的介绍。 自计算机问世以来,计算机可以学习和模仿人类智慧的观点,可谓“引无数英雄竞折腰”。像Arthur C. Clarke的HAL(Heuristically programmed ALgorithmi
小莹莹
2018/04/23
1.8K0
【机器学习】机器学习系列:(一)机器学习基础
大数据技术之_19_Spark学习_08_Spark 机器学习_01_机器学习概述 + 机器学习的相关概念 + 算法常用指标
  一组数据的集合被称作数据集,用于模型训练的数据集叫训练集,用于测试的数据集叫测试集。一个数据集包含多条数据,一条数据包含多个属性。
黑泽君
2019/05/14
5730
大数据技术之_19_Spark学习_08_Spark 机器学习_01_机器学习概述 + 机器学习的相关概念 + 算法常用指标
机器学习速成第二集——监督学习之分类(理论部分)!
监督学习中的分类部分是机器学习中非常重要的一个领域,它涉及将输入数据映射到预定义的类别或标签上。在监督学习中,算法通过有标记的数据进行训练,从而能够对新的未标记数据进行预测和分类。
用户11315985
2024/10/16
1820
机器学习速成第二集——监督学习之分类(理论部分)!
100+数据科学面试问题和答案总结 - 基础知识和数据分析
来自Amazon,google,Meta, Microsoft等的面试问题,问题很多所以对问题进行了分类整理,本文包含基础知识和数据分析相关问题
deephub
2022/11/11
1.1K0
100+数据科学面试问题和答案总结 - 基础知识和数据分析
新手,你需要了解的关于神经网络的所有知识
这篇文章将带你了解什么是人工智能,机器学习和深度学习。 神经元(Node)  – 它是神经网络的基本单位。它获得一定数量的输入和一个偏置值。当信号(值)到达时会乘以一个权值。如果神经元有4个输入,那
AiTechYun
2018/03/05
9380
新手,你需要了解的关于神经网络的所有知识
推荐阅读
相关推荐
机器学习模型性能的10个指标
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验