首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Cell | 利用大型语言模型生成抗原特异性配对链抗体

Cell | 利用大型语言模型生成抗原特异性配对链抗体

作者头像
DrugOne
发布2025-11-17 21:03:52
发布2025-11-17 21:03:52
1270
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

传统抗体发现过程效率低、成本高且成功率有限。近期的人工智能方法已被用于优化现有抗体或以目标无关方式生成抗体序列。研究人员提出了 MAGE(Monoclonal Antibody Generator),一种基于序列的蛋白质语言模型,经微调后可生成针对目标抗原的配对人源重链与轻链可变区序列。MAGE 生成的抗体在针对 SARS-CoV-2、新兴禽流感 H5N1 以及呼吸道合胞病毒A(RSV-A)的实验中均表现出特异性结合。MAGE 是首个无需模板即可设计多种靶标抗体的模型。

人源单克隆抗体具有高度特异性,可理论上靶向任意蛋白,因此在疾病治疗中具有重要潜力。然而,现有抗体开发主要依赖实验筛选,速度慢、成本高且产出有限。随着抗体市场的扩大与适应症增多,亟需能够在计算机中加速抗体发现的工具。

人工智能的发展,尤其是基于 Transformer 的大型语言模型(LLM),极大推动了计算抗体设计,如亲和力成熟、结构改造、单域抗体生成等。然而,过往方法大多依赖抗体–抗原复合物结构训练,且需模板抗体序列,限制了泛化与规模化应用。

研究人员因此提出 MAGE —— 一种可直接生成完整配对抗体序列、并具抗原特异性的序列语言模型。

方法概述

MAGE 由 ProGen2 模型微调而来,ProGen2 是在十亿级蛋白序列上预训练的自回归语言模型。

  • 训练数据集:共 18,507 对抗体–抗原序列,包括 CoV-AbDab、SAbDab、PLAbDab 以及 LIBRA-seq 高通量筛选数据。
  • 数据覆盖:约 67% 为冠状病毒相关抗体,其余覆盖 RSV、HIV、流感等多种抗原。
  • 输入格式:将重链、轻链与抗原序列连接,并使用特殊标记符分隔,使模型学习抗体–抗原序列之间的上下文依赖。

模型训练后,可通过输入抗原氨基酸序列生成配对抗体可变区序列,并在多靶标上验证结合活性与中和能力。

结果

模型训练与序列多样性

研究人员首先验证了 MAGE 是否能生成多样化的人源抗体序列。以 SARS-CoV-2 RBD 为示例,模型生成的 1000 条抗体序列中,99.1% 通过结构完整性与人源性筛选。

  • 生成抗体使用 37 种不同的重链基因与 30 种轻链基因组合。
  • 平均 CDRH3 长度为16个氨基酸,CDRL3 平均10个。
  • 与训练集中最相似序列相比,重链平均差异 11.7 个残基,轻链差异 1.4 个,显示其创新性。

这些结果表明 MAGE 可生成具有人源特征且序列多样的新抗体,而非简单复制训练样本。

SARS-CoV-2 RBD 抗体的生成与验证

研究人员从生成的序列中选取 20 个候选抗体用于实验验证。

  • ELISA 结合实验:9/20(45%)抗体可结合 SARS-CoV-2 RBD。
  • BLI 动力学测定:其中 8 个抗体表现出可测结合,5 个抗体具有纳摩尔至亚纳摩尔级亲和力。
  • 序列差异性:结合抗体与训练集中最相似序列的平均差异约13个残基,显示其并非复制体。

这些抗体具有不同的公共性与多样的基因使用模式,表明 MAGE 可生成多样的高特异性抗体群。

全长Spike结合与病毒中和

9个RBD结合抗体中,有6个可与全长Spike蛋白结合,4个表现出对 SARS-CoV-2 的显著中和能力,其中一株(RBD-409)中和IC50仅为6.7 ng/mL。部分抗体对其他冠状病毒Spike(如SARS-CoV-1)也显示交叉反应,证明模型具备跨种类泛化能力。

针对H5N1与RSV-A的跨靶标抗体生成

尽管训练集偏向冠状病毒,MAGE 仍成功生成了针对其他抗原的功能性抗体。

  • H5N1:在18个候选中有5个表现出强结合并具中和活性(IC50 < 1 μg/mL)。
  • RSV-A:在23个候选中有7个表现出结合,其中3个为无偏选择,且2个抗体(RSV-2245、RSV-4314)显示极强中和力(IC50 < 0.1 μg/mL)。

这些结果表明 MAGE 可在低数据或零样本条件下生成特异性抗体。

冷冻电镜结构解析

研究人员解析了两种 MAGE 设计的 RSV 抗体结构:

  • RSV-2245 结合于前融合F蛋白的抗原位点V,与多条CDR形成氢键和疏水网络。
  • RSV-3301 结合于F蛋白的膜近端结构域(位点I),以CDRH3为主导接触,揭示新的结合构象。

两种抗体展现出不同结合位点与残基特征,说明 MAGE 能生成结构与功能均多样的抗体。

生成抗体的突变与可开发性分析

生成抗体在躯干框架和CDR区均存在体细胞高突变(SHM)变化,部分突变位点超出训练集中共识残基,显示模型具创新组合能力。

使用TAP(Therapeutic Antibody Profiler)进行可开发性预测,所有验证抗体的风险评分均处于临床可接受范围内,显示出良好的药物化潜力。

讨论

MAGE 实现了从抗原序列直接生成完整人源重链–轻链抗体的目标,无需任何模板或结构输入。生成的抗体不仅能特异结合 SARS-CoV-2、H5N1 和 RSV-A,还展现出强中和活性,部分抗体可跨病毒种属识别。

研究人员指出,MAGE 的设计体现了生成式语言模型在学习抗体–抗原序列规律方面的潜力,可在抗体发现中实现速度提升与创新设计。其零样本能力显示出在新兴病原体快速响应中的应用前景。

当前的限制在于:训练数据仍主要为二分类绑定信息,缺乏连续的功能标签(如亲和力、毒性等),模型尚不能直接优化高亲和抗体。此外,未验证模型在完全未见抗原上的成功率。

未来,随着高通量数据与结构信息积累,MAGE 可与结构预测或下游筛选模型结合,实现抗体的自动化生成与功能定向优化,潜在地改变整个抗体发现与疫苗设计范式。

整理 | DrugOne团队

参考资料

Wasdin et al., Generation of antigen-specific paired-chain antibodies using large language models, Cell(2025)

https://doi.org/10.1016/j.cell.2025.10.006

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档