Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >经验风险、结构风险、正则项

经验风险、结构风险、正则项

作者头像
张凝可
发布于 2019-08-21 14:55:12
发布于 2019-08-21 14:55:12
1.1K0
举报
文章被收录于专栏:技术圈技术圈

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/qq_27717921/article/details/78163514

我们所学习到的所有的学习模型都会有一个共同的优化目标:

其中,

称为“结构风险”描述的是模型f的某些性质。

是经验风险,描述的是模型与训练数据的契合程度,C用于对二者进行折中。

经验风险

经验风险针对不同的学习模型有不同的计算方法。 平方损失–线性回归

0-1逻辑损失–逻辑回归

hinge损失–支持向量机

指数损失–AdaBoost

结构风险

又被称为正则化项,C被称为正则化常数,Lp范数是常用正则化项。 正则化项主要是在降低经验风险的同时能够降低最小化训练误差的过拟合风险。过拟合问题主要是提高模型的泛化能力,模型越复杂的时候,对于训练集的偏差会很小,但是在测试集时会导致偏差很大,从而整个模型不能适应新的样本,模型越复杂,模型的方差越大,过拟合现象越严重。 为什么会出现模型不能适应新的样本呢? 特征有成千上万,如果都去拟合的话,就会出现过拟合。

L1范数–LASSO: L1范数表示向量中每个元素绝对值的和:

L1范数的解通常是稀疏性的,倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。 采用L1 regularizer,它的优良性质是能产生稀疏性,导致 W 中许多项变成零。 L2 范数–ridge regression: L2范数即欧氏距离

采用L2 regularizer,使得模型的解偏向于 norm 较小的 W,通过限制 W 的 norm 的大小实现了对模型空间的限制,从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力,得到的系数 仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观.

总结

L2范数倾向与w的分量取值尽量均衡,即非零分量个数尽量稠密。而L0范数和L1范数则倾向于w的分量尽量稀疏,即非零分量个数尽量少。 L1范数和L2范数正则化都有助于降低过拟合风险,L1范数比L2范数更容易获得稀疏解,求得的解w会有更少的非零分量。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年10月05日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
正则化:防止模型过拟合
为了避免过拟合,一种手段是使用正则化(Regularizaiton)来限制模型的复杂程度。Regularization从英文直译过来是“规则化”,就是说,在原来的问题求解条件上加一些规则限制,避免模型过于复杂,出现过拟合的情况。
PP鲁
2020/06/09
2.6K0
正则化:防止模型过拟合
【机器学习基础】一文搞懂机器学习里的L1与L2正则化
文章来源于SAMshare,作者flora 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化
黄博的机器学习圈子
2020/09/29
2.9K0
【机器学习基础】一文搞懂机器学习里的L1与L2正则化
L1 和 L2 正则的区别,从梯度的角度来解释
L1 和 L2 正则化是机器学习中常用的两种正则化方法,对于应对过拟合问题和提高模型泛化能力具有重要作用。
叶庭云
2024/05/25
1.2K0
L1 和 L2 正则的区别,从梯度的角度来解释
特征锦囊:今天一起搞懂机器学习里的L1与L2正则化
特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了,这个看似简单却十分重要的概念,还是需要深
Sam Gor
2020/09/30
1.9K0
机器学习损失函数、L1-L2正则化的前世今生
前言: 我们学习一个算法总是要有个指标或者多个指标来衡量一下算的好不好,不同的机器学习问题就有了不同的努力目标,今天我们就来聊一聊回归意义下的损失函数、正则化的前世今生,从哪里来,到哪
机器学习算法工程师
2018/03/06
2K0
机器学习损失函数、L1-L2正则化的前世今生
机器学习入门之范数与正则化
范数把一个向量映射为一个非负值的函数,我们可以将一个向量x,经范数后表示点距离原点的距离,那么L^p范数定义如下:
公众号guangcity
2019/09/20
1.7K0
机器学习入门之范数与正则化
特征选择方法之Filter,Wrapper,Embedded
https://jasonlian.github.io/2017/03/13/ML2-Feature-Selection/
数据万花筒
2020/12/30
1.7K0
特征选择方法之Filter,Wrapper,Embedded
【知识】正则化与过拟合
小编邀请您,先思考: 过拟合怎么理解?如何解决? 正则化怎么理解?如何使用? 在机器学习中有时候会出现过拟合,为了解决过拟合问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的“正则化”(又称为“惩罚”,penalty)。 从多项式变换和线性回归说起 在非线性变换小节中,我们有讨论Q次多项式变换的定义和其包含关系,这里如果是10次多项式变换,那么系数的个数是11个,而2次多项式的系数个数是3。从中我们可以看出,所有的2次多项式其实是10次多项式加上一些限制,即w3=w4=...=w1
陆勤_数据人网
2018/02/26
6270
【知识】正则化与过拟合
L2正则化(L2 Regularization)
本文介绍了L2正则化(L2 Regularization)在机器学习中的作用以及L1正则化项和L2正则化项的区别。L2正则化可以防止模型过拟合,提高泛化能力。L1正则化项和L2正则化项的区别在于,L1正则化项可以使得模型更加稀疏,而L2正则化项可以使得模型更加平滑。在特征选择方面,L1正则化项和L2正则化项也可以起到不同的作用。
用户1148830
2018/01/03
3.5K0
L2正则化(L2 Regularization)
对L1正则化和L2正则化的理解[通俗易懂]
在所有可能选择的模型中,我们应选择能够很好的解释数据,并且十分简单的模型。从贝叶斯的角度来看,正则项对应于模型的先验概率。可以假设复杂模型有较小的先验概率,简单模型有较大的先验概率。
全栈程序员站长
2022/07/27
2.8K0
对L1正则化和L2正则化的理解[通俗易懂]
【AI】浅谈使用正则化防止过拟合(下)
对于机器学习问题,我们最常遇到的一个问题便是过拟合。在对已知的数据集合进行学习的时候,我们选择适应度最好的模型最为最终的结果。虽然我们选择的模型能够很好的解释训练数据集合,但却不一定能够很好的解释测试数据或者其他数据,也就是说这个模型过于精细的刻画了训练数据,对于测试数据或者其他新的数据泛化能力不强。
sidiot
2023/08/30
4500
【AI】浅谈使用正则化防止过拟合(下)
L1正则化和L2正则化的区别
L1正则化和L2正则化在机器学习和数据挖掘中是两种常用的正则化方法,它们的主要区别在于对模型参数的不同约束以及由此产生的不同效果。以下是对L1正则化和L2正则化的详细比较:
jack.yang
2025/04/05
1780
机器学习 学习笔记(16) 特征选择与稀疏学习
对当前学习任务有用的属性称为相关特征,没什么用的属性称为无关特征,从给定的特征集合中选择出相关特征自己的过程,称为特征选择。
2018/09/04
2.5K0
机器学习 学习笔记(16) 特征选择与稀疏学习
【深度学习】正则化技术全面了解
正则化就是结构风险最小化策略的实现, 是在经验风险最小化的情况下加入一个正则化项或者罚项。
OpenCV学堂
2020/03/08
2K0
机器学习面试篇
数据集是机器学习的基础,它包括了用于训练和测试模型所需的数据。数据集通常以矩阵的形式存在,其中每一行代表一个样本(或实例),每一列代表一个特征(或属性)。每个样本都包含了对应于各个特征的数值,数据集通常会被划分为训练集和测试集,有时还包括验证集。训练集用于训练模型,测试集用于评估模型的性能,而验证集则用于在训练过程中调整模型的参数。
@小森
2024/05/13
960
机器学习面试篇
机器学习中正则化项L1和L2的直观理解
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作 ℓ 1 \ell_1 ℓ1​-norm 和 ℓ 2 \ell_2 ℓ2​-norm,中文称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数。
全栈程序员站长
2022/09/14
7520
机器学习中正则化项L1和L2的直观理解
关键词学习——《正则化》
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。
计算机视觉研究院
2022/01/28
3940
关键词学习——《正则化》
谈谈自己对正则化的一些理解~
上学的时候,就一直很好奇,模式识别理论中,常提到的正则化到底是干什么的?渐渐地,听到的多了,看到的多了,再加上平时做东西都会或多或少的接触,有了一些新的理解。
全栈程序员站长
2022/09/15
2740
谈谈自己对正则化的一些理解~
机器学习------令人头疼的正则化项
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。 一般来说,监督学习可以看做最小化下面的目标函数: (正则化代价函数)=(经验代价函数)+(正则化参数)X(正则化项) 第一项是衡量模型预测与实际的
计算机视觉研究院
2018/04/17
1.2K0
L2正则化的作用(l1正则化特点)
正则化的主要作用是防止过拟合,对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。 常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归。但是使用正则化来防止过拟合的原理是什么?L1和L2正则化有什么区别呢?
全栈程序员站长
2022/07/26
1.2K0
L2正则化的作用(l1正则化特点)
相关推荐
正则化:防止模型过拟合
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档