前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ML_Basic-机器学习常见概念

ML_Basic-机器学习常见概念

作者头像
Sam Gor
发布2019-08-22 15:37:52
5970
发布2019-08-22 15:37:52
举报
文章被收录于专栏:SAMshare

机器学习基础系列专栏

整合网路上各种资源

归纳总结于Machine_Learning_Basic系列

Index

  • 奥卡姆剃刀原理
  • 过拟合与欠拟合
  • 偏差与方差
    • 深度学习中的偏差与方差
    • 偏差与方差的权衡
    • 导致偏差与方差的原因
  • 机器学习类型
    • 有监督学习
    • 无监督学习
    • 半监督学习
    • 强化学习
  • 生成模型和判别模型
    • 两者之间的联系
    • 两者的优缺点
    • 两者常见的模型
  • 先验概率和后验概率
    • 条件概率
    • 先验概率
    • 后验概率
    • 贝叶斯公式

奥卡姆剃刀原理

Occam’s Razor and Overfitting,即奥卡姆剃刀原理,指的是对训练数据最简单的解释就是最好的,训练的模型可能越简单越好,即如果有2个模型的效果效果差不多,那选择简单的那个。

过拟合与欠拟合

教科书式定义:为了得到一致假设而使假设变得过度严格称为过拟合。

通俗来说,就是对你输入的数据进行了非常严格的拟合,但模型的复用性不强,在测试集上效果差,模型泛化能力弱。大家可以看下下图。

?偏差与方差

《机器学习》 2.5 偏差与方差 - 周志华

  • 偏差与方差分别是用于衡量一个模型泛化误差的两个方面;
    • 模型的偏差,指的是模型预测的期望值与真实值之间的差;
    • 模型的方差,指的是模型预测的期望值与预测值之间的差平方和;
  • 在监督学习中,模型的泛化误差可分解为偏差、方差与噪声之和。
  • 偏差用于描述模型的拟合能力;方差用于描述模型的稳定性。

导致偏差和方差的原因

  • 偏差通常是由于我们对学习算法做了错误的假设,或者模型的复杂度不够;
    • 比如真实模型是一个二次函数,而我们假设模型为一次函数,这就会导致偏差的增大(欠拟合);
    • 由偏差引起的误差通常在训练误差上就能体现,或者说训练误差主要是由偏差造成的
  • 方差通常是由于模型的复杂度相对于训练集过高导致的;
    • 比如真实模型是一个简单的二次函数,而我们假设模型是一个高次函数,这就会导致方差的增大(过拟合);
    • 由方差引起的误差通常体现在测试误差相对训练误差的增量上。

深度学习中的偏差与方差

  • 神经网络的拟合能力非常强,因此它的训练误差(偏差)通常较小;
  • 但是过强的拟合能力会导致较大的方差,使模型的测试误差(泛化误差)增大;
  • 因此深度学习的核心工作之一就是研究如何降低模型的泛化误差,这类方法统称为正则化方法。

偏差与方差的权衡(过拟合与模型复杂度的权衡)

  • 给定学习任务,
    • 当训练不足时,模型的拟合能力不够(数据的扰动不足以使模型产生显著的变化),此时偏差主导模型的泛化误差;
    • 随着训练的进行,模型的拟合能力增强(模型能够学习数据发生的扰动),此时方差逐渐主导模型的泛化误差;
    • 当训练充足后,模型的拟合能力过强(数据的轻微扰动都会导致模型产生显著的变化),此时即发生过拟合(训练数据自身的、非全局的特征也被模型学习了)
  • 偏差和方差的关系和模型容量(模型复杂度)、欠拟合和过拟合的概念紧密相联
    • 当模型的容量增大(x 轴)时, 偏差(用点表示)随之减小,而方差(虚线)随之增大
    • 沿着 x 轴存在最佳容量,小于最佳容量会呈现欠拟合,大于最佳容量会导致过拟合。

《深度学习》 5.4.4 权衡偏差和方差以最小化均方误差

Reference

  • Algorithm_Interview_Notes-Chinese-ML-机器学习基础 --GitHub
  • Understanding the Bias-Variance Tradeoff
  • 机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系? - 知乎

机器学习类型

有监督学习(Supervised Learning)

是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。

无监督学习(Unsupervised Learning)

相反,即无监督学习,在无监督学习中,数据是未标注的。无监督学习分为聚类和降维。

  • 聚类用于根据属性和行为对象进行分组。这与分类不同,因为这些组不会提供给你。聚类将一个组划分为不同的子组(例如,根据年龄和婚姻状况),然后进行有针对性的营销。
  • 降维涉及通过查找共性来减少数据集的变量。大多数数据可视化使用降维来识别趋势和规则。

半监督学习(Semi-Supervised Learning)

对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。

强化学习(Reinforcement Learning)

强化学习使用机器的历史和经验来做出决策。强化学习的经典应用是游戏。与监督和无监督学习相反,强化学习不注重提供“正确”的答案或输出。相反,它专注于性能,这类似人类根据积极和消极后果进行学习。如果孩子碰到了热炉,他很快就会学会不再重复这个动作。同样在国际象棋中,计算机可以学习不将王移动到对手的棋子可以到达的地方。根据这个原理,在游戏中机器能够最终击败顶级的人类玩家。

Reference

  • 机器学习太难?一文带你掌握机器学习的必备基础知识 -百度

生成模型和判别模型

《统计学习方法》 1.7 生成模型与判别模型

  • 监督学习的任务是学习一个模型,对给定的输入预测相应的输出
  • 这个模型的一般形式为一个决策函数或一个条件概率分布(后验概率):
  • 决策函数:输入 X 返回 Y;其中 Y 与一个阈值**比较,然后根据比较结果判定 X 的类别
  • 条件概率分布:输入 X 返回 X 属于每个类别的概率;将其中概率最大的作为 X 所属的类别
  • 监督学习模型可分为生成模型与判别模型
    • 直观来说,判别模型学习的是类别之间的最优分隔面,反映的是不同类数据之间的差异
    • 判别模型直接学习决策函数或者条件概率分布
    • 生成模型学习的是联合概率分布P(X,Y),然后根据条件概率公式计算 P(Y|X)

两者之间的联系

  • 由生成模型可以得到判别模型,但由判别模型得不到生成模型。
  • 当存在“隐变量”时,只能使用生成模型 隐变量:当我们找不到引起某一现象的原因时,就把这个在起作用,但无法确定的因素,叫“隐变量”

两者的优缺点

  • 判别模型
    • 优点
      • 直接面对预测,往往学习的准确率更高
      • 由于直接学习 P(Y|X) 或 f(X),可以对数据进行各种程度的抽象,定义特征并使用特征,以简化学习过程
    • 缺点
      • 不能反映训练数据本身的特性
      • ...
  • 生成模型
    • 优点
      • 可以还原出联合概率分布 P(X,Y),判别方法不能
      • 学习收敛速度更快——即当样本容量增加时,学到的模型可以更快地收敛到真实模型
      • 当存在“隐变量”时,只能使用生成模型
    • 缺点
      • 学习和计算过程比较复杂

两者常见的模型

  • 判别模型
    • K 近邻、感知机(神经网络)、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场
  • 生成模型
    • 朴素贝叶斯、隐马尔可夫模型、混合高斯模型、贝叶斯网络、马尔可夫随机场

Reference

  • Algorithm_Interview_Notes-Chinese-ML-机器学习基础 -GitHub
  • 机器学习---生成模型与判别模型 - CSDN博客

? 先验概率和后验概率

条件概率(似然概率)

  • 一个事件发生后另一个事件发生的概率。
  • 一般的形式为 P(X|Y),表示 y 发生的条件下 x 发生的概率。
  • 有时为了区分一般意义上的条件概率,也称似然概率

先验概率

  • 事件发生前的预判概率
  • 可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。
  • 一般都是单独事件发生的概率,如 P(A)、P(B)。

后验概率

  • 基于先验概率求得的反向条件概率,形式上与条件概率相同(若 P(X|Y) 为正向,则 P(Y|X) 为反向)

贝叶斯公式

这里:

  • P(y|x)是后验概率,一般是我们求解的目标。
  • P(x|y)是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
  • P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
  • P(x)其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。

Reference

  • Algorithm_Interview_Notes-Chinese-ML-机器学习基础 -GitHub
  • 先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然 - CSDN博客
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SAMshare 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 机器学习基础系列专栏
  • Index
    • 奥卡姆剃刀原理
      • ?偏差与方差
        • 导致偏差和方差的原因
        • 深度学习中的偏差与方差
        • 偏差与方差的权衡(过拟合与模型复杂度的权衡)
      • 机器学习类型
        • 有监督学习(Supervised Learning)
        • 无监督学习(Unsupervised Learning)
        • 半监督学习(Semi-Supervised Learning)
        • 强化学习(Reinforcement Learning)
      • 生成模型和判别模型
        • 两者之间的联系
        • 两者的优缺点
        • 两者常见的模型
      • ? 先验概率和后验概率
        • 条件概率(似然概率)
        • 后验概率
        • 贝叶斯公式
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档