Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >叫我如何相信你?聊一聊语言模型的校准

叫我如何相信你?聊一聊语言模型的校准

作者头像
朴素人工智能
发布于 2020-04-21 10:05:44
发布于 2020-04-21 10:05:44
1.5K0
举报
文章被收录于专栏:朴素人工智能朴素人工智能
模型校准这个话题可能比较小众,但却真实地困扰了我们很长时间。碰巧最近看到arxiv上这篇论文[1],就决定写一篇文章跟大家交流。论文很新,十天前作者刚更新了一版。

论文截图

什么是校准

在实际的NLP业务场景中,我们经常遇到一个问题就是调阈值。因为我们需要把模型输出层sigmoid函数或者softmax函数给出的连续的预测概率转化成离散输出,所以需要一个阈值来决定你如何相信你的模型。特别是当应对的领域(domain)复杂多样,而训练数据来源比较单一的时候,如何选择一个比较平衡的阈值是一个尤为棘手的问题。

如果模型给出的概率值和经验概率是匹配的,即模型是“已校准的(calibrated)”,则会大大方便模型的使用和部署。举一个直观的例子,如果在2分类任务里取出100个模型预测概率为0.7的样本,其中有70个的真实标签为1,则称为模型的后验概率和经验概率是匹配的。这这个情况下,使用者可以对模型给出的概率值的误判风险有直接的判断。

期望校准误差ECE

对校准程度的度量其实是有一套框架的,这篇文章采用的是称为期望校准误差(expected calibration error, ECE)[2]的指标。这个指标的操作起来很简单,先把0-1概率空间平均分成个桶,每个桶里置入模型预测概率落在桶区间的样本。然后考察桶里样本的平均预测概率和正确率之间的误差。

ECE的计算公式写在下面,其中为样本总数,为第个桶中的样本。

下图是ECE原论文里的第一张插图,比较直观。随着网络规模越来越大,拟合能力越来越强,网络的概率分布都有集中化的趋势。虽然绝对误差也越来越小,但网络给出概率的含义却对人越来越模糊,ECE(红色面积)也越来越大。

ECE示意图。第一行是模型输出的概率直方图,可以看出更深的网络输出的概率远比浅层网络集中(over confident)。第二行是模型分桶后的ECE。可以看出大网络的总体误差Error是小的,但ECE明显是大的。完美的ECE是灰线表示的对角线。

在上图中,评估的是对单一领域(CIFAR-100)的ECE,这在分类问题中已经比较足够。但在一些特殊的场景,例如NLP的匹配问题上就需要考虑跨域问题。我们希望训练得到的是一个可以评价语义相似度的通用模型,它在不同领域的应该具有类似的表现。

语言模型的ECE

目前使用的语言模型(例如BERT)已经远远超过了resnet级别的卷积神经网络。这篇论文就探究了一下他们的ECE大概是什么情况,以及有哪些方法可以降低ECE。整篇文章选用了下图所示规模从小到大的四个模型,分别是带attention的LSTM(DA),经典匹配模型ESIM,BERT和Roberta。其中后两种是预训练语言模型,前两种模型不经过预训练。

本文选用的四种模型

用来做实验的数据集有三组,第一组是NLI任务的两个著名数据集SNLI[3]MNLI[4];第二组是语义相似性的著名数据集Quora Question Pairs(QQP)和TwitterPPDB;第三组是常识推理领域的两个数据集Situations with Ad- versarial Generations(SWAG)和HellaSWAG (HSWAG)。在每组任务上,第一个数据集都作为原始领域,划分训练集、验证集和测试集,然后在测试集上考查ECE,这种实验称为in domain(ID);而第二个数据集则作为跨领域(out of domain,OD)评价的依据。

在不做任何额外校准的情况下,四个模型在三组数据上的结果如下。主要的结论有以下几个:

  • 越大的模型精度越好,即Accuracy高
  • 除了NLI任务外,其他任务的ID ECE都是大模型好
  • 除了语义相似度任务外,其他任务的OD ECE也是大模型好

不校准时的结果

综合来看,预训练语言模型有着更好的ECE表现。而且,训练更充分的RoBERTa模型要优于同等规模的BERT模型。这个结果并不令人意外,预训练语言模型的优越性已经在太多场合被印证。另外,大家选模型的时候不要犹豫了,能RoBERTa就不要BERT,万不得已才LSTM。

校准的方法

虽然开箱即用的语言模型已经达到了比较好的校准水平,但还是有一些办法来进一步强化校准。这篇论文提到的校准方法核心都是把标签软化,避免模型产生盲目自信的情况。他们探究的做法有两种

  • 温度放缩
  • 标签平滑

温度放缩我们在Beam Search那一篇有讲到,通过提高softmax的温度,可以让输出概率分布软化。标签平滑比较值得讲一下,如果给出一个硬标签来训练,以分类为例,损失函数通常是(binary) cross entropy,这种训练策略其实是最大似然估计(maximum likelihood estimation,MLE)。而标签软化首先是先选定一个超参数,只将的概率分配给真实标签,而把剩下的概率平分给其他非真实类别。训练的时候不再优化交叉熵损失函数,而是优化KL散度,来让模型输出概率分布符合平滑后的标签概率分布。

the one-hot target [1, 0, 0] is transformed into [0.9, 0.05, 0.05] when α = 0.1

校准后的结果如下图所示。这个表格稍微有点复杂,首先每组任务分为ID和OD两种类型,每个类型又分为普通MLE训练和标签平滑后的训练两种方式,每种训练方式又分为后处理(post-processed)和不后处理(out-of-the-box)。为了方便大家阅读,作者给单元格图上了颜色,颜色越深说明ECE越小,即模型的校准性越好。

校准后的结果

首先可以看出跟不校准时一样,RoBERTa比BERT好,所以后面我们只分析RoBERTa,需要特别注意的是这两个模型的结论并不完全一致。对于RoBERTa比较重要的结论有:

  • 温度放缩校准是很有效果的,不管是ID还是OD场景,校准后的ECE都有明显下降
  • 标签平滑效果在ID情况下较差,在OD的后两组场景,特别是常识推理场景比较有效

总结

这篇论文很短,但讲的东西对于实际工程还算比较实用,尤其是ECE指标对我们评估模型有一定的指导作用。

参考资料

[1]

Calibration of Pre-trained Transformers: https://arxiv.org/abs/2003.07892

[2]

On Calibration of Modern Neural Networks: https://arxiv.org/pdf/1706.04599.pdf

[3]

SNLI数据集: https://nlp.stanford.edu/pubs/snli_paper.pdf

[4]

MNLI数据集: https://www.aclweb.org/anthology/N18-1101/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 朴素人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量 Token 数据提升视觉语言模型(VLM)在特定任务上的性能,已经提出了多种 Prompt 学习方法。
AIGC 先锋科技
2025/03/03
1270
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
自监督方法提升语言模型否定鲁棒性:引入NSPP及NSP变体,在九基准测试及CondaQA表现优异 !
在人工智能(AI)的迅猛发展背景下,本研究旨在探讨人工智能领域的最新进展及其在各个行业的应用。通过对相关文献的回顾和分析,本文将概述当前AI技术的发展趋势,并展望其在未来可能带来的变革。
AIGC 先锋科技
2025/04/14
800
自监督方法提升语言模型否定鲁棒性:引入NSPP及NSP变体,在九基准测试及CondaQA表现优异 !
ICLR2020 | StructBERT : 融合语言结构的BERT模型
今天给大家介绍阿里巴巴达摩院在ICLR2020的一篇论文,该研究针对预训练语言模型BERT在预训练任务中忽略了语言结构的问题,作者对BERT进行扩展,通过加入语言结构到预训练任务中,其核心思想是在预训练任务中加入两项基于语言结构的任务:word-level ordering和sentence-level ordering。
DrugAI
2021/02/01
1.2K0
ICLR2020 | StructBERT : 融合语言结构的BERT模型
【机器学习】--- 自然语言推理(NLI)
随着自然语言处理(NLP)的迅速发展,**自然语言推理(Natural Language Inference, NLI)**已成为一项重要的研究任务。它的目标是判断两个文本片段之间的逻辑关系。这一任务广泛应用于机器阅读理解、问答系统、对话生成等场景。
Undoom
2024/09/23
4580
解密大型语言模型:从相关性中发现因果关系?
因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣,但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM)的纯因果推理能力。其中CORR2CAUSE对LLM来说是一项具有挑战性的任务,有助于指导未来关于提高LLM纯粹推理能力和可推广性的研究。
zenRRan
2023/08/22
6840
解密大型语言模型:从相关性中发现因果关系?
8篇论文梳理BERT相关模型进展与反思
BERT自从在arXiv上发表以来获得了很大的成功和关注,打开了NLP中2-Stage的潘多拉魔盒。随后涌现了一大批类似于“BERT”的预训练(pre-trained)模型,有引入BERT中双向上下文信息的广义自回归模型XLNet,也有改进BERT训练方式和目标的RoBERTa和SpanBERT,还有结合多任务以及知识蒸馏(Knowledge Distillation)强化BERT 的MT-DNN等。除此之外,还有人试图探究BERT的原理以及其在某些任务中表现出众的真正原因。
大数据文摘
2019/09/09
6100
8篇论文梳理BERT相关模型进展与反思
不要相信模型输出的概率打分......
大家在训练深度学习模型的时候,有没有遇到这样的场景:分类任务的准确率比较高,但是模型输出的预测概率和实际预测准确率存在比较大的差异?这就是现代深度学习模型面临的校准问题。在很多场景中,我们不仅关注分类效果或者排序效果(auc),还希望模型预测的概率也是准的。例如在自动驾驶场景中,如果模型无法以置信度较高的水平检测行人或障碍物,就应该通过输出概率反映出来,并让模型依赖其他信息进行决策。再比如在广告场景中,ctr预测除了给广告排序外,还会用于确定最终的扣费价格,如果ctr的概率预测的不准,会导致广告主的扣费偏高或偏低。
圆圆的算法笔记
2022/12/19
1.3K0
不要相信模型输出的概率打分......
深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等
N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
汀丶人工智能
2023/06/12
2.9K0
深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等
Calibration: 一个工业价值极大,学术界却鲜有研究的问题!
在实际的工业应用中,当模型的准确性无法达到预期的标准时,通常思考采用提高模型决策的阈值。而这种方法在神经网络上不一定适用。本文介绍了一篇来自2017年的ICML顶会论文,关于让模型的softmax输出能真实的反映决策的置信度,也就是Calibration问题。
AI算法与图像处理
2021/01/20
1.5K0
Calibration: 一个工业价值极大,学术界却鲜有研究的问题!
NLP简报(Issue#9)
RONEC[1]是罗马尼亚语的命名实体语料库,在约5000个带注释的句子中包含超过26000个实体,属于16个不同的类。这些句子摘自无版权的报纸,内容涉及多种样式。该语料库是罗马尼亚语言领域针对命名实体识别的第一个举措。它具有BIO和CoNLL-U Plus格式,可以在此处免费使用和扩展[2]。
NewBeeNLP
2020/08/26
1K0
NLP简报(Issue#9)
常用模型蒸馏方法:这 N 个核心,你都知道吗?(上)
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活、健壮的模型技术体系。
Luga Lee
2025/05/13
680
常用模型蒸馏方法:这 N 个核心,你都知道吗?(上)
通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估
本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力,作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。
zenRRan
2023/08/21
5180
通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估
自然语言处理中的迁移学习(上)
本文转载自公众号「哈工大SCIR」(微信ID:HIt_SCIR),该公众号为哈尔滨工业大学社会计算与信息检索研究中心(刘挺教授为中心主任)的师生的信息分享平台,本文作者为哈工大SCIR 徐啸。
AI科技评论
2019/10/23
1.4K0
自然语言处理中的迁移学习(上)
480万标记样本:Facebook提出「预微调」,持续提高语言模型性能
机器学习研究人员在自我监督的语言模型预训练方面取得了非凡的成功。自监督学习是不需要标记数据而进行训练。预训练是指通过一项任务来训练模型,并可应用于其他任务。
新智元
2021/03/10
2420
480万标记样本:Facebook提出「预微调」,持续提高语言模型性能
10个大型语言模型(LLM)常见面试问题和答案解析
提示校准包括调整提示,尽量减少产生的输出中的偏差。微调修改模型本身,而数据增强扩展训练数据。梯度裁剪防止在训练期间爆炸梯度。
deephub
2024/04/15
6360
10个大型语言模型(LLM)常见面试问题和答案解析
大语言模型的幕后:如何构建一个全球级AI语言系统
在过去的几年里,大型语言模型(LLMs)如OpenAI的GPT系列、Google的BERT及其衍生版本等,已经成为人工智能领域的前沿技术。这些模型不仅在自然语言处理(NLP)任务中取得了显著成果,而且正在重塑从聊天机器人到自动化创作的多个领域。尽管这些技术的应用已经非常广泛,但很多人对于它们是如何构建的,尤其是如何打造一个全球级AI语言系统,仍然存在很多疑问。
一键难忘
2025/03/25
1520
字段级概率校准,助力推荐算法更精准!
丨导语 一年一度的国际顶级学术会议万维网大会 (The Web Conference, 即 WWW-2020) 于 4 月 20 日至 4 月 24 日在线上成功召开。WWW-2020 收到来自全球五十多个国家和地区的超过 1500 篇论文投稿,仅录用长文 219 篇,录用率 19%。其中,由腾讯TEG数据平台部,与中科院计算所、清华大学合作研究的成果《Field-aware Calibration: A simple and empirically strong method for reliable
腾讯大数据
2020/05/13
2.2K0
大语言模型评测方法全面总结!
自2017年Transformer模型提出以来,自然语言处理研究逐步转向基于该框架的预训练模型,如BERT、GPT、BART和T5等。这些预训练模型与下游任务适配后,持续刷新最优结果。然而,现有评测方法存在广度和深度不足、数据偏差、忽视模型其他能力或属性评估等问题。因此,需要全面评测和深入研究模型的各项能力、属性、应用局限性、潜在风险及其可控性等。
算法进阶
2024/07/31
4560
大语言模型评测方法全面总结!
理解GPT-3: OpenAI最新的语言模型
如果你一直在关注NLP领域的最新发展,那么在过去几个月里几乎不可能避免GPT-3的炒作。这一切都始于OpenAl研究人员发表的论文《Language Models are few Shot Learners》,该论文介绍了GPT-3系列模型。
deephub
2020/09/04
2.3K0
理解GPT-3: OpenAI最新的语言模型
小版BERT也能出奇迹:最火的预训练语言库探索小巧之路
近日,HuggingFace 发布了 NLP transformer 模型——DistilBERT,该模型与 BERT 的架构类似,不过它仅使用了 6600 万参数(区别于 BERT_base 的 1.1 亿参数),却在 GLUE 基准上实现了后者 95% 的性能。
机器之心
2019/09/10
1.1K0
小版BERT也能出奇迹:最火的预训练语言库探索小巧之路
推荐阅读
相关推荐
对比感知校准(CAC)多模态方法,为视觉语言模型开放词汇任务校准难题破局 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档