
DRUGONE
传统抗体发现过程效率低、成本高且成功率有限。近期的人工智能方法已被用于优化现有抗体或以目标无关方式生成抗体序列。研究人员提出了 MAGE(Monoclonal Antibody Generator),一种基于序列的蛋白质语言模型,经微调后可生成针对目标抗原的配对人源重链与轻链可变区序列。MAGE 生成的抗体在针对 SARS-CoV-2、新兴禽流感 H5N1 以及呼吸道合胞病毒A(RSV-A)的实验中均表现出特异性结合。MAGE 是首个无需模板即可设计多种靶标抗体的模型。

人源单克隆抗体具有高度特异性,可理论上靶向任意蛋白,因此在疾病治疗中具有重要潜力。然而,现有抗体开发主要依赖实验筛选,速度慢、成本高且产出有限。随着抗体市场的扩大与适应症增多,亟需能够在计算机中加速抗体发现的工具。
人工智能的发展,尤其是基于 Transformer 的大型语言模型(LLM),极大推动了计算抗体设计,如亲和力成熟、结构改造、单域抗体生成等。然而,过往方法大多依赖抗体–抗原复合物结构训练,且需模板抗体序列,限制了泛化与规模化应用。
研究人员因此提出 MAGE —— 一种可直接生成完整配对抗体序列、并具抗原特异性的序列语言模型。
方法概述
MAGE 由 ProGen2 模型微调而来,ProGen2 是在十亿级蛋白序列上预训练的自回归语言模型。
模型训练后,可通过输入抗原氨基酸序列生成配对抗体可变区序列,并在多靶标上验证结合活性与中和能力。

结果
模型训练与序列多样性
研究人员首先验证了 MAGE 是否能生成多样化的人源抗体序列。以 SARS-CoV-2 RBD 为示例,模型生成的 1000 条抗体序列中,99.1% 通过结构完整性与人源性筛选。
这些结果表明 MAGE 可生成具有人源特征且序列多样的新抗体,而非简单复制训练样本。
SARS-CoV-2 RBD 抗体的生成与验证
研究人员从生成的序列中选取 20 个候选抗体用于实验验证。
这些抗体具有不同的公共性与多样的基因使用模式,表明 MAGE 可生成多样的高特异性抗体群。

全长Spike结合与病毒中和
9个RBD结合抗体中,有6个可与全长Spike蛋白结合,4个表现出对 SARS-CoV-2 的显著中和能力,其中一株(RBD-409)中和IC50仅为6.7 ng/mL。部分抗体对其他冠状病毒Spike(如SARS-CoV-1)也显示交叉反应,证明模型具备跨种类泛化能力。

针对H5N1与RSV-A的跨靶标抗体生成
尽管训练集偏向冠状病毒,MAGE 仍成功生成了针对其他抗原的功能性抗体。
这些结果表明 MAGE 可在低数据或零样本条件下生成特异性抗体。


冷冻电镜结构解析
研究人员解析了两种 MAGE 设计的 RSV 抗体结构:
两种抗体展现出不同结合位点与残基特征,说明 MAGE 能生成结构与功能均多样的抗体。


生成抗体的突变与可开发性分析
生成抗体在躯干框架和CDR区均存在体细胞高突变(SHM)变化,部分突变位点超出训练集中共识残基,显示模型具创新组合能力。
使用TAP(Therapeutic Antibody Profiler)进行可开发性预测,所有验证抗体的风险评分均处于临床可接受范围内,显示出良好的药物化潜力。
讨论
MAGE 实现了从抗原序列直接生成完整人源重链–轻链抗体的目标,无需任何模板或结构输入。生成的抗体不仅能特异结合 SARS-CoV-2、H5N1 和 RSV-A,还展现出强中和活性,部分抗体可跨病毒种属识别。
研究人员指出,MAGE 的设计体现了生成式语言模型在学习抗体–抗原序列规律方面的潜力,可在抗体发现中实现速度提升与创新设计。其零样本能力显示出在新兴病原体快速响应中的应用前景。
当前的限制在于:训练数据仍主要为二分类绑定信息,缺乏连续的功能标签(如亲和力、毒性等),模型尚不能直接优化高亲和抗体。此外,未验证模型在完全未见抗原上的成功率。
未来,随着高通量数据与结构信息积累,MAGE 可与结构预测或下游筛选模型结合,实现抗体的自动化生成与功能定向优化,潜在地改变整个抗体发现与疫苗设计范式。
整理 | DrugOne团队
参考资料
Wasdin et al., Generation of antigen-specific paired-chain antibodies using large language models, Cell(2025)
https://doi.org/10.1016/j.cell.2025.10.006
内容为【DrugOne】公众号原创|转载请注明来源