Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【南洋理工&&含源码】鲁棒问答的内省蒸馏(IntroD)

【南洋理工&&含源码】鲁棒问答的内省蒸馏(IntroD)

作者头像
ShuYini
发布于 2021-11-26 08:37:24
发布于 2021-11-26 08:37:24
5540
举报

引言

众所周知,问答(QA)模型会利用数据偏差,如视觉问答中的语言优先和阅读理解中的位置偏差,目前大部分去偏方法在很大程度上牺牲了分布内(ID)性能,实现了良好的分布外(OOD)泛化,它们只适用于提前知道测试分布的领域。为此,今天给大家分享一篇新的去偏方法,称为内省蒸馏(introspecture, IntroD)它能够让分布内性能和分布外性能都保持最佳

论文及源码下载链接在文章后面。

正文开始

1

背景概述

问答(QA)是最基本的人工智能任务之一,它要求机器在给定的背景下回答问题。常见的上下文是视觉(例如,VQA的图像)和自然语言(例如,抽取QA的段落)。通过观察可以发现,目前大部分 QA 模型更倾向于过度利用训练偏差,从而绕过上下文理解以获得快捷答案。 例如,VQA模型仅利用问题和答案之间的语言相关性,就能正确回答大多数问题。同样,提取性QA模型也可以利用虚假的位置线索来定位文章中的答案。因此,不管训练数据和模型的规模有多大,已经实现了强大的分布内(ID)性能的QA模型都可能不可避免地在分布外(OOD)测试场景中失败。

最近,有几种去偏方法旨在缩小ID和OOD性能之间的差距[12,17,13,35]。然而,他们中的许多人认为训练分布和测试分布是非常不同的,甚至是相反的,例如,如果在训练中有更多的“是”答案,那么在测试中一定有更多的“否”答案。因此,这些方法在ID评估时遇到严重的性能下降,尽管它们在OOD性能方面明显优于非偏置基线。从上图中观察到:非偏置方法(圆点表示的:S-MRL、UpDn)获得ID的准确率高,但OOD的准确率低,而去偏方法(方块表示的:LMH、CFVQA、CSS)获得OOD的准确率高,但ID的准确率低。

S-MRL、UpDn、LMH、CFVQA、CSS参考论文下载在后面!!】

2

文章思路

针对上述问题,文章构建了在 ID 和 ODD 评估中都实现强大性能的强大QA 模型。本文指出,如果模型在一个区域过度利用偏差,在另一个区域中的性能将显着下降。因此,“两者兼而有之”的模型应该公平对待任何一个区域的归纳偏差。为此,提出了一个简单而有效的训练范式——内省蒸馏 (IntroD)——以公平地融合两个区域的归纳偏差。 假设我们有两个专家教师模型:ID-teacher 和 OOD-teacher,每个模型都捕获 ID 或 OOD 归纳偏差并代表相应的区域。下图说明了关于一个内省的学生如何从两个截然不同的老师那里学习的三个案例。

其中:(a) 当 ID 归纳偏差主导学习时,学习模型应该更多地倾听 OOD 感知知识。 (c) 当 OOD 归纳偏差主导学习时,学习模型更多地听取 ID 感知知识。(b) 当学习公平时,学生模型平等地听取两位老师的意见。“ID”和“OOD”条中的区域代表预测概率的比例。

情况 1:情况 1:如果 ID-bias > OOD-bias,则 ID-teacher < OOD-teacher。ID归纳偏差主导了学习,学生应该更多地听OOD老师。当 ID-teacher 的训练损失较低而 OOD-teacher 的训练损失较高时,就会发生这种情况。如图 2 (a) 所示,如果没有额外的上下文,QA 模型很难断定烤箱是否是电动的。由于在训练数据中存在归纳偏差,即大多数以“is”开头的问题回答为“yes”,ID-teacher的结论过于自信,而OOD-teacher则没有。

情况 2:如果 ID-bias < OOD-bias,则 ID-teacher > OOD-teacher。OOD 归纳偏差在学习中占主导地位,学生应该多听 ID 老师。当 ID-teacher 的训练损失较高而 OOD-teacher 的训练损失较低时,就会发生这种情况。如图2(c)所示,至少有两个年长的男人,一个穿着蓝色衬衫卖水果,一个穿着白色衬衫走在人群中。因此,“蓝色”和“白色”都应该是正确的。然而,由于大多数以“什么颜色”开头的训练问题都被标记为“白色”答案,“OOD应该与ID不同”的偏见迫使OOD-teacher不公平地淡化“白色”,而ID-teacher则没有。

情况3:如果ID ≈ OOD,则ID-teacher ≈ OOD-teacher。学习是公平的,学生应该平等地听取两位老师的意见。这种情况发生在两者的训练损失接近时。如图 2 (b) 所示,ID-teacher 和 OOD-teacher 产生了相似的预测。

上述内省可以表示为两位教师的混合知识,将其提炼为学习模型。然而,一个悬而未决的挑战是如何获得“oracle”教师,尤其是 OOD-teacher,因为在训练中看不到 OOD 分布,更不用说训练一个教师模型了。由于最近的基于因果关系的方法,可以使用因果模型来近似 OOD-teacher,该模型通过事实外推理想象看不见的世界。

文章中的 IntroD 旨在公平地混合 ID 和 OOD 归纳偏差。如下图所示,它由三个关键部分组成:1) 用于捕获 ID 和 OOD 归纳偏差的因果教师,2) 混合两种不同归纳偏差的内省,以及 3) 对稳健学习模型的蒸馏。其中下图,首先,给定输入问题 q 和上下文 c,因果教师输出 ID-aware 和 OOD-aware 预测;然后,在自省训练样本是否受到归纳偏差的影响后,ID 和 OOD 知识被自适应地混合;最后,混合知识被提炼为学习模型。

3

实验快照

不失一般性,我们将保证视觉质量和提取质量作为案例研究。在VQA-CP 、VQA v2 和 SQuAD上进行实验并验证了文章 IntroD 的有效性

1、VQA 的比较,其中灰色方法表示基线模型

2、用于分布内 (ID) 评估的 VQA-CP v2 val 集的比较。

3、SQuAD比较

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI
文章作者依次为:马杰(助理教授)、王平辉(教授)、孔德辰(硕士生)、王泽伟(硕士生)、刘均(教授)、裴红斌(助理教授)、赵俊舟(副教授)。
AI科技评论
2024/05/06
5050
西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI
WSDM2023 | 面向推荐场景的无偏知识蒸馏
TLDR:常规推荐系统算法中的知识蒸馏往往会引入严重的偏差问题,在从教师模型蒸馏给学生模型过程中,流行度偏差会被继承甚至放大。基于这种观察,作者提出了一种分层蒸馏策略,将物品按照物品流行度进行分组,从而在每个组内进行采样,计算BPR损失,从而实现无偏。
张小磊
2023/01/10
1.1K0
WSDM2023 | 面向推荐场景的无偏知识蒸馏
神经网络中的蒸馏技术,从Softmax开始说起
本报告讨论了非常厉害模型优化技术 —— 知识蒸馏,并给大家过了一遍相关的TensorFlow的代码。
zenRRan
2020/09/24
1.9K0
神经网络中的蒸馏技术,从Softmax开始说起
【深度学习】深度学习中的知识蒸馏技术(上)简介
在化学中,蒸馏是一种有效的分离不同沸点组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的。化学蒸馏条件:(1)蒸馏的液体是混合物;(2)各组分沸点不同。
黄博的机器学习圈子
2021/04/16
6.7K0
【深度学习】深度学习中的知识蒸馏技术(上)简介
新加坡国立大学 | 建立一个具有鲁棒性的QA模型(抗分布变化 & 含源码)
 情人节,你遇到的一切都是最好得礼物。今天给大家分享的这篇文章是新加坡国立大学发表的一篇文章,该文介绍了COLDQA,它是针对文本损坏、语言更改和域更改的分布变化的鲁棒QA的统一评估基准,进而从“测试集与训练集数据分布变化会影响模型效果”引入Test-time Adaptation(TTA),通过对TTA的分析,提出了一种新的TTA方法:Online Imitation Learning(OIL)方法;通过大量实验,发现TTA与RT方法相当,在RT之后应用TTA可以显着提高模型在COLDQA的上性能。
ShuYini
2023/03/06
3920
新加坡国立大学 | 建立一个具有鲁棒性的QA模型(抗分布变化 & 含源码)
推荐系统魔术手:推荐中的偏差与消偏策略
在真实的推荐系统中,由于各种各样的原因,往往会造成各种各样的偏差问题。这些客观或者主观原因造成的偏差对推荐展示效果及推荐系统的生态发展都会造成负面的影响。
博文视点Broadview
2023/08/09
1.6K0
推荐系统魔术手:推荐中的偏差与消偏策略
你的模型可能学错了!!深入探究答案位置偏差
虚假的统计线索在这几年已经逐渐引起了人们的关注,比如去年被广泛讨论的BERT是如何在NLI任务中利用数据集中的词汇统计线索来做出更可能是正确的预测,比如带有"not"的判断更可能是正确的。
NewBeeNLP
2020/12/22
9120
MIT & Caltech & AWS 提出 ALDI,目标检测新突破, 超越现有方法,再次刷新 SOTA!
ALDI++ 在 Cityscapes Foggy Cityscapes 上的AP50超过了先前最先进的方法+3.5,在 Sim10k Cityscapes 上超过了+5.7 AP50(作者的方法是唯一一种超过公正基准线的方法),在 CFC Kenai Channel 上超过了+2.0 AP50。作者的框架、数据集和最先进的方法为DAOD领域提供了一个关键的重新设定,并为未来的研究奠定了坚实的基础。
未来先知
2024/08/08
2810
MIT &  Caltech  & AWS 提出 ALDI,目标检测新突破, 超越现有方法,再次刷新 SOTA!
知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例
基于ERNIE预训练模型效果上达到业界领先,但是由于模型比较大,预测性能可能无法满足上线需求。
汀丶人工智能
2022/11/14
1.5K0
DeiT-LT:印度科学院提出针对长尾数据的DeiT升级模型 | CVPR 2024
论文: DEYO: DETR with YOLO for Step-by-Step Object Detection
VincentLee
2024/08/14
1840
DeiT-LT:印度科学院提出针对长尾数据的DeiT升级模型 | CVPR 2024
知识蒸馏怎么用?召回-粗排篇
其实,知识蒸馏在召回-粗排-精排这三个模块都有用武之地,今天我们就来讲讲在粗排和召回中的应用。
NewBeeNLP
2022/06/06
1.7K0
知识蒸馏怎么用?召回-粗排篇
知识蒸馏综述:蒸馏机制
Knowledge Distillation A Suvery的第二部分,上一篇介绍了知识蒸馏中知识的种类,这一篇介绍各个算法的蒸馏机制,根据教师网络是否和学生网络一起更新,可以分为离线蒸馏,在线蒸馏和自蒸馏。
BBuf
2021/12/09
1.8K0
知识蒸馏综述:蒸馏机制
「自然语言处理(NLP)」---亚马逊QA(含源码) && 视觉问答QAA
继续两篇文章分享,第一篇主要是卡耐基梅陇大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户。第二篇,为有效聚焦图像内容,提出了一种与问题无关的注意力机制(QAA),实验发现,合并互补的QAA可以使最先进的VQA模型表现得更好,并为简化的VQA模型提供了重要的支持。
ShuYini
2019/08/21
1.1K0
「自然语言处理(NLP)」---亚马逊QA(含源码) && 视觉问答QAA
推荐系统Bias大全
Bias and Debias in Recommender System: A Survey and Future Directions(ArXiv2020)
炼丹笔记
2021/05/14
9930
推荐系统Bias大全
DeiT:使用Attention蒸馏Transformer
题目:Training data-efficient image transformers & distillation through attention
BBuf
2021/10/08
1.2K0
每日学术速递2.20
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
AiCharm
2025/02/21
1710
每日学术速递2.20
BAM!利用知识蒸馏和多任务学习构建的通用语言模型
在今年年初,微软发布了一个多任务自然语言理解模型,它在通用语言理解评估基准 GLUE 上取得了当时最好的效果:11 项 NLP 基准任务中有 9 项超过了 BERT。至此,各种 NLP 预训练方法都被提了出来,GLUE 基准也出现越来越多的新研究。
机器之心
2019/04/09
1.2K0
BAM!利用知识蒸馏和多任务学习构建的通用语言模型
联邦知识蒸馏概述与思考(续)
前文(【科普】联邦知识蒸馏概述与思考)提到知识蒸馏是一种模型压缩方法,通过利用复杂模型(Teacher Model)强大的表征学习能力帮助简单模型(Student Model)进行训练,主要分为两个步骤:
CV君
2022/04/18
1.4K0
联邦知识蒸馏概述与思考(续)
你的模型是不是换个场景就不行了?CAT 的完美设计解决类内偏差,场景自适应的目标检测就这么诞生了
Foggy Cityscapes数据集上,作者获得了52.5 mAP,相比于最先进方法的51.2 mAP,这是一个显著的提升。
集智书童公众号
2024/04/25
8420
你的模型是不是换个场景就不行了?CAT 的完美设计解决类内偏差,场景自适应的目标检测就这么诞生了
中科院自动化所提出M2MKD | 基于模块粒度的蒸馏,m2mKD让模型在ImageNet上再涨3.5%
尽管在计算机视觉和自然语言处理等各个领域,大型单体模型取得了显著的成功,但人们对其有限的泛化能力和不断增加的计算成本表示担忧。与此同时,模块化模型越来越受到关注,它们有望减轻单体模型的缺点。与具有固定计算图和参数的单体模型相比,模块化神经架构能够根据输入调整其参数,具有静态单体模型所缺乏的优越特性。与集体优化参数的单体模型不同,模块化模型由独立的模块组成,每个模块可以局部更新,而不会影响网络的其他部分。这些模块经过训练以专精于特定任务。在推理过程中,即使对于分布外的样本,也只有相关的模块会被激活,从而提高泛化性能。例如,DEMix Layers通过从训练数据中学习到的医学和新闻模块联合表示与COVID-19相关的数据。此外,模块化模型中的条件计算提高了计算效率。一个典型的模块化架构,即专家混合体(Mixture-of-Experts, MoE),在保持与原始模型相似的计算需求的同时,大幅提升了模型的能力。
集智书童公众号
2024/03/01
3730
中科院自动化所提出M2MKD | 基于模块粒度的蒸馏,m2mKD让模型在ImageNet上再涨3.5%
推荐阅读
相关推荐
西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档