首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Mach. Intell. | 条件生成真实抗原特异性T细胞受体序列

Nat. Mach. Intell. | 条件生成真实抗原特异性T细胞受体序列

作者头像
DrugOne
发布2025-10-14 16:17:43
发布2025-10-14 16:17:43
1660
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

尽管近年来 T 细胞受体(TCR)工程取得了显著进展,但针对任意靶标设计功能性 TCR 依旧充满挑战,主要原因是交叉反应性的复杂规律和有限的配对数据。本研究提出了 TCR-TRANSLATE 框架,将低资源机器翻译的方法引入序列到序列建模,用于生成针对未见表位的抗原特异性 TCR 序列。研究人员系统评估了 12 种基于 BART 和 T5 架构的模型变体,揭示了性能与实用性之间的差异,并确定了关键影响因素。核心模型 TCRT5 在计算基准上优于现有方法,能够更高效地在前列位置优先排序功能相关序列。最重要的是,研究人员实验验证了一条针对 Wilms’ 肿瘤抗原的计算设计 TCR,该抗原是白血病的治疗相关靶点,并未包含在训练或验证集中。尽管该 TCR 展现出一定的病原体多肽交叉反应性,提示特异性仍有局限,但这一工作首次展示了仅凭目标序列即可在计算上设计出功能性 TCR 构建体。研究结果为计算驱动的 TCR 设计奠定了基础,并揭示了数据和方法学上的限制,为通过缩小靶标搜索空间来加速个性化免疫治疗提供了可行途径。

T 细胞通过其受体(TCR)在免疫系统中扮演“监视者”的角色。它们能够识别由主要组织相容性复合物(MHC)呈递的肽段,并以单氨基酸级别的精度区分自我与非自我。这种高度特异性的识别机制支撑了免疫防御,但同时也带来了 TCR 工程上的难题。

近年来,TCR 工程以及相关免疫疗法(如 CAR-T、工程化 TCR 以及 TCR 双特异性抗体)在慢性感染、自身免疫疾病和癌症治疗中取得突破性进展。然而,发现兼具特异性和自我耐受性的 TCR 依旧依赖于费时、低效的体外筛选。传统实验方法不仅耗费资源,而且难以覆盖广阔的 TCR–pMHC 组合空间。

计算方法为这一困境提供了希望。通过算法模拟和生成,研究人员有望在体外实验之前快速筛选候选 TCR,从而大幅提高效率。然而,现实挑战在于:数据稀疏、偏倚严重,大多数已知抗原特异性 TCR 仅限于少数疾病背景。因此,研究人员提出通过条件生成框架来直接建模 TCR 与 pMHC 的映射关系,以应对数据有限的场景。

方法

研究人员将抗原特异性 TCR 的设计任务转化为一个稀疏的 序列到序列(seq2seq)问题。核心思想是:输入表位–MHC(pMHC)序列信息,模型即可输出条件生成的 TCR 序列。

具体做法包括:

  • 模型架构:设计了两类基于 Transformer 的编码器–解码器架构,分别是 TCRBART 和 TCRT5。
  • 训练策略:引入低资源机器翻译中的多种技巧,包括 双向建模(pMHC ↔ TCR 的相互翻译)、多任务学习(结合掩码语言建模),以弥补数据稀缺的问题。
  • 数据集构建:从 IEDB、VDJdb 和 McPAS 数据库中筛选 pMHC–TCR 配对,构建训练集,并将前 20 个高丰度 pMHC 保留作为验证集。
  • 推理方式:采用束搜索进行序列采样,确保生成序列具备较高的生物学合理性。

最终,研究人员选择 TCRT5-FT 作为最佳模型,在计算基准与实验验证中均展现出优势。

结果

条件生成的优势

与无条件生成模型相比,条件生成模型在所有指标上表现更好,尤其在 序列恢复率 与 F1 分数 上差距显著。这表明在输入中引入表位信息能显著提升生成序列的针对性。

多任务训练与多特异性

多任务训练提高了模型的准确性,但减少了生成序列的多样性。研究人员发现,这类模型倾向于生成 多特异性 TCR(能够识别多个不同表位),提示其可能通过牺牲多样性来换取更高的一致性。这种现象揭示了 准确性与多样性之间的权衡。

TCRT5 的表现

TCRT5 在准确性、多样性平衡及对多特异性依赖度方面表现最佳。进一步分析显示,TCRT5 能生成与真实 CDR3β 序列高度相似的序列,并捕捉到合理的长度分布和位置熵特征。其生成结果覆盖了多个病毒和肿瘤相关表位,证明其具备较强的泛化能力。

稀疏基准测试

在稀疏验证集中,TCRT5 在 精确匹配、序列相似度 和 功能聚类 等指标上均优于 ER-TRANSFORMER 和 GRATCR,并且在某些表位任务中能够恢复真实的已知结合序列。这说明 TCRT5 在极少数据条件下依然能提供可靠预测。

实验验证

研究人员在白血病相关的 WT1 抗原 上进行了体外实验。40 条生成的 TCR 构建体中,有 1 条(F8 序列)成功触发了 T 细胞的功能性激活。虽然命中率不高(1/40),但仍远超传统发现方法的效率。此外,所有 40 个构建体都能在细胞表面正确表达,验证了 CDR3β 序列嫁接的可行性。值得注意的是,F8 对 WT1 产生反应的同时,也对广谱病原体肽池有反应,提示特异性仍需提升。

讨论

本研究提出的 TCR-TRANSLATE 框架 展示了在稀疏数据条件下利用 seq2seq 模型快速生成抗原特异性 TCR 的可能性。旗舰模型 TCRT5 在计算基准与实验中均表现出色,首次实现了针对未见抗原的功能性 TCR 设计,代表着计算免疫学的一大进步。

然而,研究也暴露了若干挑战:

  • 多特异性问题:模型倾向于生成多特异性 TCR,这虽符合生物学现实,但不一定满足临床对特异性的高要求。
  • 数据稀缺与偏倚:当前数据集规模有限,尤其在非病毒抗原方面不足,制约了模型的广泛应用。
  • 实验覆盖不足:现阶段实验验证仅集中于单一非病毒抗原,还需扩展到更多表位和不同免疫背景。

未来方向包括:

  • 扩充和均衡高质量数据集;
  • 引入结构信息和多模态特征提升建模能力;
  • 开发更高效的训练与采样策略;
  • 在临床相关抗原上进行更广泛的实验验证。

总体而言,这一研究为 个性化免疫治疗 提供了新的思路。通过计算机快速生成候选 TCR,能够极大缩小搜索空间,加速针对新发疾病或个体化需求的免疫疗法开发。

整理 | DrugOne团队

参考资料

Karthikeyan, D., Bennett, S.N., Reynolds, A.G. et al. Conditional generation of real antigen-specific T cell receptor sequences. Nat Mach Intell (2025).

https://doi.org/10.1038/s42256-025-01096-6

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档