超越聚合指标：揭示ML模型新环境失效

原创

用户11764306

发布于 2026-05-03 22:31:18

910

为什么必须超越过度聚合的机器学习指标

新的研究检测到了错误相关性的隐藏证据，并提供了一种提高准确性的方法。

新研究表明，即使模型在大量数据上训练并选择了最佳平均模型，在新环境中，这个“最佳模型”可能对6%-75%的新数据成为最差模型。

麻省理工学院的研究人员发现了机器学习模型在应用于非训练数据时出现显著失效的实例，这引发了关于模型部署到新环境时必须进行测试的思考。

"我们证明，即使你在大量数据上训练模型，并选择最佳的平均模型，在一个新环境中，这个'最佳模型'可能对6%-75%的新数据成为最差模型，" Marzyeh Ghassemi副教授说。她是MIT电气工程与计算机科学系（EECS）的副教授，医学工程与科学研究所成员，以及信息与决策系统实验室的首席研究员。

在去年12月神经信息处理系统会议（NeurIPS 2025）上发表的论文中，研究人员指出，例如，在一家医院有效诊断胸部X光片疾病的模型，平均而言可能被认为在另一家医院同样有效。然而，研究人员的性能评估揭示，第一家医院的一些最佳性能模型在第二家医院对高达75%的患者表现最差——尽管当聚合第二家医院所有患者的数据时，高平均性能掩盖了这种失效。

他们的发现表明：虽然伪相关性（一个简单的例子是：机器学习系统因没"见过"多少在海滩上的奶牛图片，仅凭背景就将一张海滩上的奶牛照片分类为虎鲸）被认为可以通过提高模型在观察数据上的性能来缓解，但它们实际上仍然存在，并持续对模型在新环境中的可信度构成风险。在许多实例中——包括研究人员考察的领域，如胸部X光片、癌症组织病理学图像和仇恨言论检测——这类伪相关性更难被察觉。

例如，在基于胸部X光片训练的医疗诊断模型中，模型可能学会将某家医院X光片上的一个特定无关标记与某种病理关联起来。在另一家不使用该标记的医院，这种病理就可能被漏诊。

Ghassemi团队先前的研究表明，模型可能错误地将年龄、性别和种族等因素与医学发现关联起来。例如，如果一个模型在更多患有肺炎的老年人胸部X光片上训练，而"见"到的年轻人X光片较少，它可能预测只有老年患者才会得肺炎。

"我们希望模型学会如何观察患者的解剖特征，并据此做出决策，"该论文的第一作者、MIT博士后Olawale Salaudeen说，"但实际上，数据中任何与决策相关的任何信息都可能被模型利用。而这些相关性可能并不随着环境变化而保持稳健，从而使模型的预测成为不可靠的决策来源。"

伪相关性增加了决策偏差的风险。在NeurIPS的论文中，研究人员表明，例如，提高整体诊断性能的胸部X光模型，在患有胸膜疾病或心脏/纵隔增大的患者上表现反而更差。该论文的其他作者包括博士生Haoran Zhang和Kumail Alhamoud、EECS助理教授Sara Beery，以及Ghassemi。

以往的研究普遍认为，按性能从好到坏排序的模型在应用于新环境时会保持该顺序（称为"准确性在线"），而研究人员则能够证明在某些情况下，一个环境中的最佳性能模型在另一个环境中表现最差。

Salaudeen设计了一种名为OODSelect的算法来寻找"准确性在线"被打破的实例。基本思路是：他使用分布内数据（即来自第一个环境的数据）训练了数千个模型，并计算它们的准确性。然后将这些模型应用于来自第二个环境的数据。当那些在第一环境数据上准确性最高的模型，在应用于第二环境的大部分样本时却出错，这就识别出了有问题的子集（或子群体）。Salaudeen还强调了使用聚合统计数据进行评估的危险性，因为这会掩盖关于模型性能的更细粒度、更具后果性的信息。

在研究过程中，他们将"最被错误计算的样本"分离出来，以免将数据集内的伪相关性与那些本就难以分类的情况混为一谈。

该NeurIPS论文发布了研究人员的代码和一些已识别的子集，供未来研究使用。

一旦某家医院或任何采用机器学习的机构识别出模型表现不佳的子集，这些信息就可以用来针对特定任务和环境改进模型。研究人员建议未来的工作采用OODSelect，以便更一致地突出评估目标和设计改进性能的方法。

"我们希望发布的代码和OODSelect子集能成为一个垫脚石，"研究人员写道，"朝着能够对抗伪相关性不利影响的基准和模型迈进。"FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

网络安全