Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PRML系列:1.3 Model Selection

PRML系列:1.3 Model Selection

作者头像
用户1147447
发布于 2018-01-02 01:59:31
发布于 2018-01-02 01:59:31
8700
举报
文章被收录于专栏:机器学习入门机器学习入门

PRML系列:1.3 Model Selection

模型选择

模型选择一般采用交叉验证,本节提到了S-fold cross-validation,原理如下,把数据集D随机划分成S份,其中S-1份用来训练模型,1份用来验证模型的效果。这样,一方面能充分利用所给数据集的几乎全部有用信息,另外一方面,可以有效避免过拟合现象的发生。

当S取数据集个数N时,这种技术叫做留一法,在样本稀缺的情况下尤其有用。

缺点:

  1. 随着S的增大,模型训练时间也增大,毕竟要训练S次,得到S个模型,在模型本身比较耗时的情况下,时间复杂度相当高。
  2. 对于单一模型,如果自身需要手动调节多个参数,如若干个正则化参数。在最坏情况下,探索这些参数的组合需要的训练次数可能是参数个数的指数函数。

针对第二个缺点,比如给定多项式拟合函数的阶数M和正则化系数λ\lambda, M可选择9种,λ\lambda可选择5种,那么自然有9 x 5 = 45种选择,随着需要手动调节参数的增多,训练次数也会指数上升。

这些参数的共同特点是,模型不能自动学得,需要手动调节,我们称为超参数。理想情况下,模型选择应该只依赖于训练数据,并且应该允许在一轮训练中对比多个超参数以及模型类型。因此,我们需要找到一种模型表现的度量,它只依赖于训练数据,并且不会由于过拟合产生偏移的问题。

文中提出了针对似然函数的一种”信息准则”,Akaike information criterion, 简称AIC,选择下面使这个量最大的模型:

不过令我好奇的是,是有特定的算法能够通过验证集能够自动选择最优模型么?书中暂未提到。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-12-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
PRML系列:1.2 Probability Theory
本文探讨了贝叶斯统计在机器学习中的重要性,通过对比频率学派和贝叶斯学派的方法,阐述了贝叶斯学派能够在处理不确定性问题时更加有效,同时通过高斯分布和贝叶斯定理来解释贝叶斯学派的方法。
用户1147447
2018/01/02
1.1K0
PRML系列:1.2 Probability Theory
机器学习,过拟合与欠拟合,正则化与交叉验证
不同的机器学习方法会给出不同的模型。当损失函数给定时,基于损失函数的模型的训练误差(training error)和模型的测试误差(test error)就自然成为学习方法评估的标准。
zhangjiqun
2024/12/14
3400
机器学习,过拟合与欠拟合,正则化与交叉验证
统计学习方法导论—2
当损失函数是0-1损失时,测试误差就变成了常见的测试数据集上的误差率error rate
皮大大
2021/03/02
3460
吴恩达笔记6_关于机器学习的建议
当学习的算法时候,考虑的是如何选择参数来使得训练误差最小化。在模型建立的过程中很容易遇到过拟合的问题,那么如何评估模型是否过拟合呢?
皮大大
2021/03/02
3710
按部就班的吴恩达机器学习网课用于讨论(9)
需要选择合适的模型,能够正确的训练模型,并更好的拟合数据。如下的例子是房价面积和价格的线性回归模型,
嘘、小点声
2020/05/08
3660
PRML系列:1.4 The Curse of Dimensionality
随便扯扯 PRML例举了一个人工合成的数据集,这个数据集中表示一个管道中石油,水,天然气各自所占的比例。这三种物质在管道中的几何形状有三种不同的配饰,被称为“同质状”、“环状”和“薄片状”。 输入有1
用户1147447
2017/12/29
9670
PRML系列:1.4 The Curse of Dimensionality
PRML系列:1.1 多项式函数拟合
本文介绍了多项式函数拟合的基本原理、应用场景以及求解方法,通过一个具体的例子详细演示了如何使用最小二乘法进行多项式函数拟合,并分析了过拟合现象以及解决方法。
用户1147447
2017/12/29
1.3K0
PRML系列:1.1 多项式函数拟合
TF-char9-overfitting
\color{red}{泛化能力}:从训练集上学习到数据的真实模型,从而在未知的测试集上也能表现的良好的能力。
皮大大
2021/03/01
3500
TF-char9-overfitting
干货 | 机器学习正在面临哪些主要挑战?
红色石头给大家介绍了《Scikit-Learn 和 TensorFlow 机器学习指南》第1次学习笔记。内容很干,翻译的质量红色石头自认为还是不错的,翻译的同时也会取舍或增加一些内容,尽量把主要内容提炼出来,希望能帮到大家学习这本书。虽然更新得有点慢,但是翻译+整理确实比较花时间~对了,这个翻译项目我已经同步在 GitHub 上了,喜欢的给个 Star 吧!链接如下:
红色石头
2022/01/12
1.2K0
干货 | 机器学习正在面临哪些主要挑战?
Dropout、梯度消失/爆炸、Adam优化算法,神经网络优化算法看这一篇就够了
对于机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢?
AI科技大本营
2019/09/03
9480
Dropout、梯度消失/爆炸、Adam优化算法,神经网络优化算法看这一篇就够了
七种回归分析方法 个个经典
什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。 我们为什么使用回归分析? 如上所述,回归分析估计了两个或多个变量之间的关系。下面,让我们举一个
小莹莹
2018/04/18
1.2K0
七种回归分析方法 个个经典
统计学习方法之概论1.基础概念2.统计学习三要素3.模型评估与模型选择、正则化和交叉验证4.分类问题、标注问题、回归问题5.学习小结
1.基础概念 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科,是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。 统计学习的目的就是考虑学习什么样的模型和如何学习模型。 统计学习方法包括模型的假
JasonhavenDai
2018/04/11
1.1K0
统计学习方法之概论1.基础概念2.统计学习三要素3.模型评估与模型选择、正则化和交叉验证4.分类问题、标注问题、回归问题5.学习小结
机器学习入门系列(2)--机器学习概览(下)
1. 机器学习的主要挑战1.1 训练数据量不足1.2 没有代表性的训练数据1.3 低质量的数据1.4 不相关的特征1.5 过拟合1.6 欠拟合2. 测试和评估3. 小结
kbsc13
2019/08/16
4560
深度学习相关基础知识点
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
村雨遥
2019/09/09
5710
深度学习相关基础知识点
【机器学习的基本思想】模型优化与评估
  在前几篇文章中,我们介绍了k近邻算法和线性回归两个基本的机器学习模型。或许已经注意到,除了模型本身以外,要训练一个好的机器学习模型,还有许多需要注意的地方。例如,我们将数据集分为训练集和测试集,在前者上用不同参数训练,再在后者上测试,以选出效果最好的模型参数。此外,在线性回归一文中,我们还对数据集做了预处理,把每个特征下的数据分别做归一化,放缩到同一数量级上。诸如此类的细节在机器学习中还有很多,它们虽然本身和算法关系不大,但对模型最终效果的好坏又有着至关重要的影响,而把握好这些细节的前提是深入理解机器学习的基本思想。本文就来讲解这些机器学习模型的基本思想。
Francek Chen
2025/01/22
1410
【机器学习的基本思想】模型优化与评估
AIC和BIC准则详解
很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价,同时带来一个机器学习中非常普遍的问题——过拟合。 所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。 人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法:
全栈程序员站长
2022/08/31
2.7K0
图解机器学习术语-a系列
公众号:尤而小屋作者:Peter编辑:Peter大家好,我是Peter~最近看到国外一位大神对机器学习知识点绘制的彩图,通过图解的形式来解释一个知识点,比如过拟合、auc、boosting算法等,非常的形象👍,比如:支持向量机图片<!--MORE-->L2正则化过程图片原地址:https://machinelearningflashcards.com/,作者:Chris Albon全图先看一个比较全面的图形:这里面有Dropout、TF-IDF、SVC等图片A系列今天分享A系列的内容。AIC-赤池信息量准则
皮大大
2023/01/28
5210
图解机器学习术语-a系列
scikit-learn 线性回归算法库小结
    scikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的使用场景。
刘建平Pinard
2018/08/14
6320
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议
当学习的算法时候,考虑的是如何选择参数来使得训练误差最小化。在模型建立的过程中很容易遇到过拟合的问题,那么如何评估模型是否过拟合呢?
红色石头
2022/01/20
2910
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议
第十一章 应用机器学习的建议
该系列文章为,观看“吴恩达机器学习”系列视频的学习笔记。虽然每个视频都很简单,但不得不说每一句都非常的简洁扼要,浅显易懂。非常适合我这样的小白入门。 本章含盖 11.1 决定下一步做什么 11.2
tomas家的小拨浪鼓
2019/03/15
4830
推荐阅读
相关推荐
PRML系列:1.2 Probability Theory
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档