Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度学习与神经网络:AIC,BIC,L1,L2

深度学习与神经网络:AIC,BIC,L1,L2

原创
作者头像
云时之间
发布于 2018-05-07 14:50:05
发布于 2018-05-07 14:50:05
1.7K3
举报
文章被收录于专栏:云时之间云时之间

在学习深度学习时,我们经常会听到AIC, BIC 还有l1, lasso 等regularization 的知识。

但是随之产生了一些问题,其中一个就是AIC,BIC和l1,l2的应用场景是不是相同或者有重叠的地方?

首先先让我们思考两个问题

1)实现参数的稀疏有什么好处吗?

一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对测试数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。

2)参数值越小代表模型越简单吗?

是的。为什么参数越小,说明模型越简单呢,这是因为越复杂的模型,越是会尝试对所有的样本进行拟合,甚至包括一些异常样本点,这就容易造成在较小的区间里预测值产生较大的波动,这种较大的波动也反映了在这个区间里的导数很大,而只有较大的参数值才能产生较大的导数。因此复杂的模型,其参数值会比较大。

接下来我将对AIC和BIC以及L系列正规化进行一些介绍:

1:AIC和BIC

AIC和BIC是同一个指标,一般用于选择模型,也就是模型的比较优劣

他们的不同之处在于

AIC=-2 ln(L) + 2 k 中文名字:赤池信息量 akaike information criterion

BIC=-2 ln(L) + ln(n)*k 中文名字:贝叶斯信息量 bayesian information criterion

HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion

构造这些统计量所遵循的统计思想是一致的,就是在考虑拟合残差的同时,依自变量个数施加“惩罚”。

但,倘若因此就说它们是同一个指标,恐怕还是有些不妥,毕竟“惩罚”的力度还是不尽相同的。

此外,这些信息量的用途不仅限于选择模型,还能用于选取合适的变换等等。而在那些时候,这些信息量又是另一个模样,也就是说它们有许多变体。因此,它们也被称为AIC准则、BIC准则等等。它们中的每一个体现的都是一系列的标准,而非单独的一个简单式子

[有关赤池信息量的更多信息可以参照一下的博客BIC AIC HQ - s1491695565的专栏 - 博客频道 - CSDN.NET]

2:L0,L1,L2正则化的一些介绍:

机器学习中,我们听到的L0,L1这样的正则化方法比AIC,BIC要多得多,那么这些正则化的概念是什么呢?

1:正则化概念

L0正则化的值是模型参数中非零参数的个数。

L1正则化表示各个参数绝对值之和。

L2正则化标识各个参数的平方的和的开方值。

1:L0正则化

从我们开头的那两个问题我们可以知道,稀疏的参数可以有效地解决过拟合的问题,因此我们可以用非零参数的个数去做正则化的运算来去解决过拟合的问题.但是因为L0正则化很难求解,是一个NP,所以我们一般都采用L1正则化.

2:L1正则化

因为L1正则化是L0正则化的最优凸近似,并且在比L0更好求解的同时,也可以实现稀疏的效果,因此在实际过程中L1常常用来代替L0,来防止过拟合,L1之所以可以解决过拟合,是因为L1的范数是各个参数的绝对值相加得到的,我们在之前讨论了参数的大小和模型的复杂度是成正比对的,因此越是复杂的模型,其中的L1范数也就越大,最终导致的损失函数也就越大,其实也就说明这个模型不够优秀.

3:L2正则化

L2和L1正则化去解决过拟合的方法基本一样,只是形式的表现上有所区别,L2范数是各参数的平方和再求平方根,我们让L2范数的正则项

最小,可以使W的每个元素都很小,都接近于0。但与L1范数不一样的是,它不会是每个元素为0,而只是接近于0。越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象。

对着两种进行对比,L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。L1在特征选择时候非常有用,而L2就只是一种规则化而已。在所有特征中只有少数特征起重要作用的情况下,选择L1比较合适,因为它能自动选择特征。而如果所有特征中,大部分特征都能起作用,而且起的作用很平均,那么使用L2也许更合适。

回到我们的文章最先的问题中,我们应该怎么选择AIC和BIC以及L系类正则化问题中,我想在机器学习领域,大家对 L1和 L2 说的很赞,他们就是不同的正则化方式,主要用于参数学习。但是AIC/BIC 虽然也是一种正则化,但他们多用于结构选择。比如贝叶斯网结构学习时,单纯用似然会导致极其稠密的网络,使用这两种信息准则替代似然,会得到比较满意的解。

l1, l2 是在模型训练的过程中通过正则项来控制feature 个数,达到防止模型过拟合的问题。

AIC,BIC是在已经训练出来的模型中选择更好的那个模型时候的判断准则。

他们的共性是都是为了找到更好的模型。 区别是l1,l2在模型训练的过程中通过加约束来达到生成更好的模型的目的。 而AIC,BIC是在已经训练好的不同模型里面筛选出相对最好的那个模型,目的不同,最终的结果也一定有所差距.

好了,这就是这篇文章的所有内容,大家如果有更好的建议和观点也希望和我一起多多讨论

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
3 条评论
热度
最新
AIC信息准则即Akaike information criterion,是衡量统计模型拟合优良性的一种标准。
AIC信息准则即Akaike information criterion,是衡量统计模型拟合优良性的一种标准。
回复回复点赞举报
虽然不是太明白,还是赞一个
虽然不是太明白,还是赞一个
回复回复点赞举报
参数
参数
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
对L1正则化和L2正则化的理解[通俗易懂]
在所有可能选择的模型中,我们应选择能够很好的解释数据,并且十分简单的模型。从贝叶斯的角度来看,正则项对应于模型的先验概率。可以假设复杂模型有较小的先验概率,简单模型有较大的先验概率。
全栈程序员站长
2022/07/27
1.9K0
对L1正则化和L2正则化的理解[通俗易懂]
你够全面了解L1与L2正则吗?
) 是机器学习中对原始损失函数引入惩罚项,以防止过拟合或提高模型泛化性能的一类方法的统称。所谓惩罚是指对损失函数中的某些参数做一些限制。此时目标函数变成了原始损失函数+惩罚项,常用的正则项一般有两种,英文称作
灿视学长
2021/05/28
7840
AIC和BIC准则详解
很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价,同时带来一个机器学习中非常普遍的问题——过拟合。 所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。 人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法:
全栈程序员站长
2022/08/31
2.5K0
笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)
监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,
悟乙己
2019/05/26
3K0
模型中AIC和BIC以及loglikelihood的关系
我们常用的参数有「AIC」,「BIC」,「loglikelihood」,本篇介绍一下这几个参数的含义,以及是如何计算的,下面我们一起来看一下吧。
邓飞
2022/02/09
6.6K0
模型中AIC和BIC以及loglikelihood的关系
关键词学习——《正则化》
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。
计算机视觉研究院
2022/01/28
3830
关键词学习——《正则化》
【深度学习】正则化技术全面了解
正则化就是结构风险最小化策略的实现, 是在经验风险最小化的情况下加入一个正则化项或者罚项。
OpenCV学堂
2020/03/08
1.9K0
机器学习------令人头疼的正则化项
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。 一般来说,监督学习可以看做最小化下面的目标函数: (正则化代价函数)=(经验代价函数)+(正则化参数)X(正则化项) 第一项是衡量模型预测与实际的
计算机视觉研究院
2018/04/17
1.1K0
深度神经网络之正则化
之前介绍的文章之中,我们已多次接触到正则化方法,但没有详细的解释为什么要正则化,什么是正则化,以及L1正则化和L2正则化的区别。本次文章之中,我们将详解机器学习中正则化的概念和深度神经网络中的正则化方法。
小一
2019/08/14
1.2K0
深度神经网络之正则化
机器学习入门 8-10 L1,L2和弹性网络
本系列是《玩转机器学习教程》一个整理的视频笔记。本小节主要介绍L1,L2正则项,引入Lp范数新概念,提出L0正则项。为了利用L1,L2正则项各自优点,提出了弹性网。实际进行模型正则化时,优先使用岭回归,如果特征数量非常多,选择弹性网。
触摸壹缕阳光
2020/02/17
1.7K0
机器学习入门 8-10 L1,L2和弹性网络
机器学习和深度学习中的正则化方法
之前我们介绍过在机器学习和深度学习中可能存在过拟合问题,过拟合会导致高偏差,解决办法有两个,一个是增加数据量,一个是正则化,下面我们就介绍一下正则化。
Minerva
2020/05/25
1.1K0
LASSO回归与L1正则化 西瓜书「建议收藏」
在支持向量机部分,我们接触到松弛变量,正则化因子以及最优化函数,在朴素贝叶斯分类,决策树我们也遇到类似的函数优化问题。其实这就是结构风险和经验风险两种模型选择策略,经验风险负责最小化误差,使得模型尽可能的拟合数据,而结构风险则负责规则化参数,使得参数的形式尽量简洁,从而达到防止过拟合的作用.所以针对常见模型,我们都有下式:
全栈程序员站长
2022/07/26
6730
LASSO回归与L1正则化 西瓜书「建议收藏」
机器学习 学习笔记(16) 特征选择与稀疏学习
对当前学习任务有用的属性称为相关特征,没什么用的属性称为无关特征,从给定的特征集合中选择出相关特征自己的过程,称为特征选择。
2018/09/04
2.4K0
机器学习 学习笔记(16) 特征选择与稀疏学习
机器学习损失函数、L1-L2正则化的前世今生
前言: 我们学习一个算法总是要有个指标或者多个指标来衡量一下算的好不好,不同的机器学习问题就有了不同的努力目标,今天我们就来聊一聊回归意义下的损失函数、正则化的前世今生,从哪里来,到哪
机器学习算法工程师
2018/03/06
2K0
机器学习损失函数、L1-L2正则化的前世今生
机器学习:说说L1和L2正则化
0 回顾 在最近的推送中,先后总结了最小二乘法的原理,两个求解方法:直接法和梯度下降,最后利用这两种思路进行了python实战;之后阐述了OLS算法使用的前提是必须满足数据集无多重共线性,因为它是无偏估计,这也带来了它非常惧怕多重共线性问题,在面对这些数据时,它往往得到的权重参数方差大,是一个不稳定的回归算法。 工程应用中,你拿到的数据集可能有上百个特征维度,实际上是很难保证数据集中的所有维度都满足无共线性,所以OLS实际上没有太多的实际应用价值,它必须要想到一种办法解决多重共线性,进而过滤掉那些权重参数等
double
2018/04/02
1.7K0
机器学习:说说L1和L2正则化
深度学习笔记 基础数学知识
深度学习背后的核心有标量、向量、矩阵和张量这 4 种数据结构,可以通过使用这些数据结构,以编程的方式解决基本的线性代数问题
叶庭云
2021/01/29
1K0
机器学习中如何解决过拟合
机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。 监督机器学习问题无非就是"minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。多么简约的哲学啊! 因为参数太多,会导致我们的模型复杂度上升,容易过拟合,也就是我们的训练误差会很小。但训练误差小并不是我们的最终
用户1332428
2018/03/08
8790
机器学习中如何解决过拟合
通俗易懂–岭回归(L2)、lasso回归(L1)、ElasticNet讲解(算法+案例)
想要理解什么是正则化,首先我们先来了解上图的方程式。当训练的特征和数据很少时,往往会造成欠拟合的情况,对应的是左边的坐标;而我们想要达到的目的往往是中间的坐标,适当的特征和数据用来训练;但往往现实生活中影响结果的因素是很多的,也就是说会有很多个特征值,所以训练模型的时候往往会造成过拟合的情况,如右边的坐标所示。
全栈程序员站长
2022/06/30
2K0
通俗易懂–岭回归(L2)、lasso回归(L1)、ElasticNet讲解(算法+案例)
机器学习-正则化-L1L2
经验风险最⼩小化(empirical risk minimization)认为经验⻛风险最⼩小的模型是最优的模型,即求解最优化问题
AomanHao
2022/01/13
1.2K0
学习笔记:深度学习中的正则化
  泛化能力强-->验证集上的误差小,训练集上的误差不大(不必追求完美,否则可能会导致过拟合)即可。
小草AI
2019/11/01
8900
学习笔记:深度学习中的正则化
相关推荐
对L1正则化和L2正则化的理解[通俗易懂]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档