社区首页 >专栏 >【南洋理工&&含源码】鲁棒问答的内省蒸馏（IntroD）

【南洋理工&&含源码】鲁棒问答的内省蒸馏（IntroD）

ShuYini

发布于 2021-11-26 08:37:24

5640

引言

众所周知，问答(QA)模型会利用数据偏差，如视觉问答中的语言优先和阅读理解中的位置偏差，目前大部分去偏方法在很大程度上牺牲了分布内(ID)性能，实现了良好的分布外(OOD)泛化，它们只适用于提前知道测试分布的领域。为此，今天给大家分享一篇新的去偏方法，称为内省蒸馏(introspecture, IntroD)，它能够让分布内性能和分布外性能都保持最佳。

论文及源码下载链接在文章后面。

正文开始

背景概述

问答(QA)是最基本的人工智能任务之一，它要求机器在给定的背景下回答问题。常见的上下文是视觉(例如，VQA的图像)和自然语言(例如，抽取QA的段落)。通过观察可以发现，目前大部分 QA 模型更倾向于过度利用训练偏差，从而绕过上下文理解以获得快捷答案。 例如，VQA模型仅利用问题和答案之间的语言相关性，就能正确回答大多数问题。同样，提取性QA模型也可以利用虚假的位置线索来定位文章中的答案。因此，不管训练数据和模型的规模有多大，已经实现了强大的分布内(ID)性能的QA模型都可能不可避免地在分布外(OOD)测试场景中失败。

最近，有几种去偏方法旨在缩小ID和OOD性能之间的差距[12,17,13,35]。然而，他们中的许多人认为训练分布和测试分布是非常不同的，甚至是相反的，例如，如果在训练中有更多的“是”答案，那么在测试中一定有更多的“否”答案。因此，这些方法在ID评估时遇到严重的性能下降，尽管它们在OOD性能方面明显优于非偏置基线。从上图中观察到：非偏置方法(圆点表示的：S-MRL、UpDn)获得ID的准确率高，但OOD的准确率低，而去偏方法(方块表示的：LMH、CFVQA、CSS)获得OOD的准确率高，但ID的准确率低。

【S-MRL、UpDn、LMH、CFVQA、CSS参考论文下载在后面！！】

文章思路

针对上述问题，文章构建了在 ID 和 ODD 评估中都实现强大性能的强大QA 模型。本文指出，如果模型在一个区域过度利用偏差，在另一个区域中的性能将显着下降。因此，“两者兼而有之”的模型应该公平对待任何一个区域的归纳偏差。为此，提出了一个简单而有效的训练范式——内省蒸馏 (IntroD)——以公平地融合两个区域的归纳偏差。假设我们有两个专家教师模型：ID-teacher 和 OOD-teacher，每个模型都捕获 ID 或 OOD 归纳偏差并代表相应的区域。下图说明了关于一个内省的学生如何从两个截然不同的老师那里学习的三个案例。

其中：(a) 当 ID 归纳偏差主导学习时，学习模型应该更多地倾听 OOD 感知知识。 (c) 当 OOD 归纳偏差主导学习时，学习模型更多地听取 ID 感知知识。(b) 当学习公平时，学生模型平等地听取两位老师的意见。“ID”和“OOD”条中的区域代表预测概率的比例。

情况 1：情况 1：如果 ID-bias > OOD-bias，则 ID-teacher < OOD-teacher。ID归纳偏差主导了学习，学生应该更多地听OOD老师。当 ID-teacher 的训练损失较低而 OOD-teacher 的训练损失较高时，就会发生这种情况。如图 2 (a) 所示，如果没有额外的上下文，QA 模型很难断定烤箱是否是电动的。由于在训练数据中存在归纳偏差，即大多数以“is”开头的问题回答为“yes”，ID-teacher的结论过于自信，而OOD-teacher则没有。

情况 2：如果 ID-bias < OOD-bias，则 ID-teacher > OOD-teacher。OOD 归纳偏差在学习中占主导地位，学生应该多听 ID 老师。当 ID-teacher 的训练损失较高而 OOD-teacher 的训练损失较低时，就会发生这种情况。如图2（c）所示，至少有两个年长的男人，一个穿着蓝色衬衫卖水果，一个穿着白色衬衫走在人群中。因此，“蓝色”和“白色”都应该是正确的。然而，由于大多数以“什么颜色”开头的训练问题都被标记为“白色”答案，“OOD应该与ID不同”的偏见迫使OOD-teacher不公平地淡化“白色”，而ID-teacher则没有。

情况3：如果ID ≈ OOD，则ID-teacher ≈ OOD-teacher。学习是公平的，学生应该平等地听取两位老师的意见。这种情况发生在两者的训练损失接近时。如图 2 (b) 所示，ID-teacher 和 OOD-teacher 产生了相似的预测。

上述内省可以表示为两位教师的混合知识，将其提炼为学习模型。然而，一个悬而未决的挑战是如何获得“oracle”教师，尤其是 OOD-teacher，因为在训练中看不到 OOD 分布，更不用说训练一个教师模型了。由于最近的基于因果关系的方法，可以使用因果模型来近似 OOD-teacher，该模型通过事实外推理想象看不见的世界。

文章中的 IntroD 旨在公平地混合 ID 和 OOD 归纳偏差。如下图所示，它由三个关键部分组成：1) 用于捕获 ID 和 OOD 归纳偏差的因果教师，2) 混合两种不同归纳偏差的内省，以及 3) 对稳健学习模型的蒸馏。其中下图，首先，给定输入问题 q 和上下文 c，因果教师输出 ID-aware 和 OOD-aware 预测；然后，在自省训练样本是否受到归纳偏差的影响后，ID 和 OOD 知识被自适应地混合；最后，混合知识被提炼为学习模型。