过去几年,这类方法在不同社区中以各自独立的形式快速发展 —— 有的来自对抗鲁棒性与迁移学习,有的服务于下游任务适配,有的则成为大模型对齐与应用的基础工具。然而,这些看似分散的技术路线,背后是否存在一个更统一、更本质的理论视角?
近期,来自墨尔本大学可信赖机器学习与推理(TMLR)研究小组和 IBM AI 研究所的研究者系统性地提出了「神经网络可重编程性(Neural Network Reprogrammability)」这一统一主题,在最近的一篇 survey 中,将模型重编程,Prompt Tuning、Prompt Instruction 和 In-context Learning 纳入同一分析框架,从操纵位置、操纵类型、操纵算子和输出对齐四个维度进行了系统梳理与对比。同时,该团队也在 AAAI 2026 上带来同名 Tutorial,帮助研究者与工程实践者全面理解这一正在重塑模型使用范式的关键能力。

1. 模型训练范式的转变
在本文中,我们认为随着预训练模型(pre-trained model)规模的增长,其适配下游任务(downstream tasks)的范式已经发生了根本性转变:从传统的基于模型参数调整的适配(图 1a)转变为了基于模型可重编程性的适配(图 1b)。

传统适配技术(parameter-centric adaptation, PCA)通过重新训练预训练模型,修改模型内部参数,使其适用于新的下游任务。例如,将 ImageNet 预训练的图像分类器应用于猫狗分类任务时,需要至少改变分类头,甚至重新训练其他层的参数,即我们通常所说的 fine-tuning,本质上改变了模型学习到的内部表征(representation),并需要为每个下游任务维护一份新的参数拷贝。
新兴适配技术(基于模型可重编程性的适配,reprogrammability-centric adaptation, RCA)则采用了一种不同的理念:保持模型参数冻结,转而策略性地修改任务呈现的方式,通过精心设计下游任务的输入变换(包括模型输入(input)、提示(prompt)或上下文信息(context)),以及模型输出对齐方式(output)来使其兼容下游任务,使用极少量可训练参数(甚至完全不引入新参数),在不触及模型权重的情况下「重编程」预训练模型的行为。
核心转变体现在理念上的转换:从「修改模型以适应任务」转向「修改任务以适应模型」,从而使我们能以最小的计算开销在不同任务中重复使用预训练模型,同时保持其原有能力。同一个冻结的模型仅通过改变与其「对话」的方式,就能处理多种不同的任务。
2. 可重编程性范式的效率优势
具体实验数据表明(图 2),相较 PCA,RCA 在参数效率上有明显优势。将 ImageNet 预训练的视觉 Transformer(ViT-B/32)适配到遥感图像分类任务(EuroSAT)。柱状图显示不同 fine-tune 策略的参数需求:从左到右分别对应 fully fine-tune 到逐步减少可训练层数的各种配置,训练参数量随之下降。但即便是最轻量的 PCA 方案仍需要大量参数。
形成对比的是,红色虚线显示 RCA 需要的训练参数始终比任何 PCA 配置少 2-3 个数量级。这些参数用于输入变换和输出对齐,而不是修改预训练模型的内部权重。

这表明,在可以实现 comparable performance 前提下,RCA 的参数效率更高,使得在资源受限环境中适配大模型成为可能,并支持同时适配多个任务而不会出现灾难性遗忘。在预训练模型规模与能力不断提升、获取方式日趋不透明(如商业模型仅提供 API 接口)的背景下,RCA 的优势愈发突出。
3. 可重编程性范式的「多种称谓」
然而,我们发现相似甚至相同的模型适配方法在不同研究社区却有着截然不同的命名:NLP 社区常称之为「prompt tuning」,而 ML 文献中研究者更倾向于使用 「model reprogramming」指代这类方法。经验上,这种术语混乱也经常引发 「哪种方法更优」、「为何不比较其他方法」等争论。
核心问题在于:prompt tuning,model reprogramming,甚至 in-context learning 真的代表不同的模型适配方法吗?答案是否定的。尽管表现形式各异,这些方法实质上都利用了神经网络的同一固有属性 -- neural network reprogrammability (神经网络可重编程性,图 3)。基于这一认识,我们提出统一框架来连接三个独立发展的研究领域,并系统性地描述和归类这些适配方法。

关键点 1. 可重编程性的普适性。
它具备架构无关性和模态无关性,跨越三个核心维度:适配方法,预训练模型架构(单模态类型、多模态模型、专门架构),以及数据类型(图像、文本、音频、图结构等) -- 无论具体实现细节如何,围绕模型接口的信息操作(information manipulation at model’s interfaces)这一共同的底层原理,我们都能将任意预训练模型适配到任意下游任务。
4. 可重编程性范式的首次提出(ICLR 2019)
那么什么是 reprogrammability 呢?下面这张图片展示了从神经网络对于对抗样本的脆弱性(sensitivity to adversarial examples)向可重编程性(reprogrammability)的演进。图片来自文章《Adversarial reprogramming of neural networks》由 G. F. Elsayed, I. Goodfellow, and J. Sohl-Dickstein. 发表于 ICLR 2019.

左侧(传统对抗样本 adversarial example):展示了经典对抗攻击,在熊猫图像上添加不可察觉的噪声,就能使 ImageNet 分类器将其错分为长臂猿,置信度高达 99.3%,尽管图像在人眼看来没有变化。
右侧(对抗重编程 adversarial reprogramming):展示了如何将这种脆弱性转化为建设性用途。我们不仅欺骗模型,同时将其「重编程」以执行完全不同的任务:
关键点 2. 巧妙利用神经网络的敏感性。
由对抗样本发现的神经网络敏感性(理论背景包括决策边界的不连续性等),正是可重编程性的基础。我们不再将这种敏感性仅视为安全缺陷,而是建设性地利用它,在不重新训练的情况下将预训练模型重定向到新的任务。精心设计的 program/prompt 可以将神经网络感知的弱点转化为高效的适配机制。

5. 可重编程性范式的数学表达
如上,我们给出 neural network reprogrammability 统一框架的定义,涵盖了文章中讨论的各类模型适配方法。定义如下:
给定源域(source domain)上预训练的模型

,该模型从源域输入空间

映射到源域输出空间

。神经网络可重编程性使这个固定模型(参数不再改变)能够通过两个可配置的变换在完全不同的目标域(target domain)实现由该域输入 / 输出空间

定义的目标任务:

该变换将目标任务的输入转换为预训练模型可处理的格式,这可能是通过添加可学习的 prompt、拼接 demonstration examples 或应用 adversarial perturbation 到目标样本上。

该变换将预训练模型的源域预测映射到目标任务的输出格式。这可能涉及到 label mapping, structured parsing 或 linear projection 等。
将这两个变换与预训练模型结合,我们得到重编程后的预训练模型

。这个看似简单的复合函数可以描述上述模型适配技术的本质,这些看似不同的方法实际上只是同一基本原理的不同实例。
6. 可重编程性范式的具体案例
以视觉 - 语言模型(Vision-Language Model)为例,说明三种可重编程方法在实现上的差异(如图 4 所示)。
本质上,三种方法都实现了相同目标 -- 将冻结模型重新用于新任务 -- 通过计算图中的不同路径实现。

Neural network reprogrammability 如何在不同模态和任务中具体实现呢?
(a) model reprogramming for 图像分类任务(图 5a):
(b) prompt tuning for 文本生成任务(图 5b):

关键点 3. 数学框架下的一致性。
尽管操纵不同模态(视觉 vs 语言)、任务类型(分类 vs 生成)并使用不同的输入操纵策略(加性扰动 vs 连接提示),两种方法都遵循完全相同的数学框架。
7. 基于可重编程性范式,归纳现有方法
基于这个特性,我们进一步提出了一个分类法(taxonomy),将过往的研究工作组织为跨四个维度的连贯结构,并展示了 neural network reprogrammability 这一框架的泛用性。
对应地,MR,PT 和 PI 对应的研究方法可以被系统归类,如表格 2 所示。

8. 如何用可重编程性范式来理解 In-context learning 和 Chain-of-Thought Reasoning

特别地,LLM 的上下文学习 in-context learning (ICL) 在该框架下可以描述为

因此,模型通过这些示例在「上下文」中学习目标任务的模式,且无需任何参数更新。Demonstration examples 本质上是一种输入操纵,通过策略性构造输入,从而重编程模型行为。

对应地,思维链推理(Chain-of-Thought Reasoning)可被认为是一种通过融入结构化、与输入样本特定相关的(sample-specific)「推理形式」的输入操纵。
9. 资源分享:Awesome Neural Network Reprogrammability 资源库
为了方便社区追踪这一飞速发展的领域的最新进展,我们维护了一个 Awesome 风格的资源库,收录并持续更新 Neural Network Reprogrammability 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
如果你正在做相关方向,欢迎在 GitHub 上 star 支持,或者来仓库一起补全与更新!
© THE END
转载请联系本公众号获得授权