前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Cell. Syst. | 通过机器学习预测适应性免疫受体面临数据生成挑战

Cell. Syst. | 通过机器学习预测适应性免疫受体面临数据生成挑战

作者头像
DrugAI
发布2025-03-03 21:10:31
发布2025-03-03 21:10:31
600
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自瑞士的博特纳免疫工程研究所Sai T. Reddy团队的一篇论文。免疫系统中最重要的防御武器是免疫受体,其中包括B细胞受体(BCR)、它们分泌的抗体,以及T细胞受体(TCR)。这些免疫受体就像是免疫系统的“智能雷达”,能够精确识别和对抗入侵者。它们最神奇的特点是拥有一个高度灵活的识别区域,可以通过改变自身结构来识别数不胜数的不同入侵物质(抗原)。虽然AI领域的明星工具AlphaFold(一个能够预测蛋白质结构的人工智能系统)在蛋白质结构预测方面取得了突破性进展,但在预测免疫受体方面仍面临两大挑战:一是高质量的免疫受体结构数据太少,二是免疫受体与入侵物质之间的相互作用机制过于复杂。在这篇综述中,作者重点介绍了两个关键领域的最新进展:一是基于免疫受体序列信息的数据生成技术,二是基于其结构信息的数据生成方法。这些进展对于开发能够预测免疫受体识别特性的机器学习模型至关重要。同时,作者也探讨了当前面临的技术瓶颈,以及未来如何更好地利用海量多维度数据来预测和设计具有特定识别功能的抗体和T细胞受体。

人类的免疫系统就像一支装备精良的军队,其中最精密的武器就是适应性免疫受体。这些免疫受体拥有数量惊人的不同“形态”(功能性蛋白质序列),使它们能够识别来自病原体和病变细胞的各种“入侵者”(抗原)。在这个防御系统中,抗体和T细胞受体(TCR)就像两种不同类型的“侦察兵”,它们的基本结构相似,都配备了能够灵活变化的识别区域,其中最关键的部分是高变补体决定区(CDR),这个区域就像可以变形的“钥匙”,能够与特定的入侵者精确对接。这两种“侦察兵”的工作方式略有不同:B细胞受体(BCR)及其分泌形式抗体主要负责识别游离在体液中或细胞外的入侵者,而TCR则专门识别已经被细胞“捕获”并在表面展示的入侵者碎片(以pMHC形式呈现)。

虽然Google DeepMind开发的AlphaFold系列AI工具(包括AlphaFold 2和升级版AlphaFold 3)在预测普通蛋白质结构方面取得了革命性进展,但在预测免疫受体方面仍面临重大挑战。最主要的原因是训练数据严重不足:目前科学界仅获得了8,388个抗体-抗原结构和702个TCR-pMHC结构的高质量数据。相比之下,用于训练AlphaFold的普通蛋白质结构数据超过20万个。这种差距就像是用只有几千张照片训练的AI系统去识别整个世界的人脸一样具有挑战性。

用于预测免疫受体特异性的数据生成

开发预测免疫受体特异性的AI模型时,就像建造一座房子,首先要明确这座房子的用途(模型应用),然后确定需要什么建材(训练数据)。在收集数据时,最关键的是合理设计蛋白质的变异范围。这就像设计一把钥匙,既要尝试各种可能的形状(产生足够的能与目标匹配的“阳性”数据),也要知道哪些形状是不行的(收集不能匹配的“阴性”数据),但又不能漫无目的地尝试所有可能。

图 1

目前,科学家们主要通过两种方式来研究免疫受体的特异性(如图1所示):一种是研究免疫受体的“密码本”(基于序列的数据,包括DNA或蛋白质序列),另一种是研究其“立体结构”(基于结构的数据,观察免疫受体的三维形态)。为了获取这些信息,科学家们开发了一系列精密的实验工具:

酶联免疫吸附测定(ELISA)和流式细胞术(FACS):用于大规模筛选

生物层干涉(BLI)和表面等离子体共振(SPR):精确测量结合能力

X射线晶体学和低温电子显微镜(cryo-EM):观察详细的三维结构

这些方法就像是一系列放大镜,从不同角度和精度来观察免疫受体是如何识别并结合其目标的。虽然获取高质量的结构数据往往需要首先了解蛋白质序列信息,但这两种数据类型都为理解免疫受体的特异性提供了宝贵的见解,对开发机器学习模型具有重要价值。

基于序列的免疫受体特异性数据

为了理解免疫受体的特异性,科学家们首先需要破译它们的“遗传密码”——这包括免疫受体自身及其识别目标(抗原)的基本构成信息(DNA、RNA或蛋白质序列)。就像破译一本密码本,现代的深度测序技术(一种能快速读取生物分子序列的方法)能够同时阅读数以百万计的“密码”,产生足够多的数据来训练AI模型。

为了研究免疫受体如何识别目标,科学家们开发了一系列巧妙的“展示平台”:可以将免疫受体展示在噬菌体、酵母或哺乳动物细胞表面,就像把钥匙挂在展示架上,然后测试它们与目标的结合能力。这种方法已经被用来研究抗体、T细胞受体(TCR)以及它们的目标分子(蛋白质抗原和pMHC)在序列变异后的行为变化。对于开发准确的AI模型来说,收集高质量的实验数据至关重要,就像训练一个优秀的鉴别专家,既需要让他见识足够多的“真品”(能够结合的序列),也要让他接触足够多的“赝品”(不能结合的序列),而且这些样本都必须具有足够的多样性和代表性。

高效设计和筛选诱变库以获得机器学习的训练数据

训练AI识别免疫受体时面临着一个巨大的挑战:可能的序列组合数量实在太多了。想象一下,即使是一个只有10个氨基酸长度的小片段(相当于免疫受体上的一个小零件),其可能的变化组合就达到了40万亿种!这就像是在寻找海底的一粒特定的沙子。更糟糕的是,随着序列进行的改变越多,这个“零件”保持正常工作的可能性就越低。

为了应对这个挑战,科学家们开发了几种巧妙的策略:

“循序渐进”策略:首先使用深度突变扫描(DMS)技术,就像用显微镜仔细观察每个可能的单点改变,然后根据这些发现来设计更复杂的组合变异。例如,在研究一种治疗性抗体(trastuzumab)时,研究者们先确定了哪些小改变是安全的,然后才进行更大规模的改造,最终在7000多亿个可能的变体中成功找到了约11,000个有效的新变体。

“全面筛查”策略:不仅要找出能工作的变体,还要找出那些失效的或者会产生意外反应的变体。这就像是在训练一个优秀的品管员,既要让他认识合格产品,也要让他熟悉各种缺陷品。

“规模化”策略:开发新的高通量筛选方法,比如将抗体筛选直接与测序仪器集成,这样就能同时分析成千上万的变体。这种方法显著提高了发现有效变体的效率,从2.3%提升到了13.2%,甚至找到了亲和力提高5000倍的抗体变体。

开发文库对文库的筛选方法以增加训练数据的规模

想象一下,传统的筛选方法就像是用一把固定的钥匙去试各种锁,或者用一把固定的锁去试各种钥匙。而新开发的文库对文库(LoL)技术则同时尝试成千上万种不同的钥匙和锁的组合,大大提高了寻找匹配对的效率。科学家们开发了两种巧妙的LoL技术:

“智能相亲系统”:研究者改造了酵母细胞的“交配系统”,使其能够反映蛋白质之间的结合强度。就像是一个超大规模的相亲活动,系统可以同时评估7,000对“约会对象”是否相配。这项技术在研究针对新冠病毒变异株的抗体时表现出色,一次实验就能分析超过176,000个抗体-抗原互作关系。

“智能标签系统”:研究者在同一个酵母细胞上同时展示两种待测试的蛋白质,并在它们之间设置一个特殊的“切割点”。如果这两种蛋白质能够相互结合,即使在切断连接后也能保持在一起,就能被特殊的标记抗体识别出来。这种方法可以从理论上探索高达10亿种可能的组合。

这些创新的筛选技术极大地扩展了探索蛋白质相互作用的能力,为开发更智能的AI预测模型提供了海量的高质量训练数据。这就像是从过去只能一对一地找配对,发展到了现在可以同时进行大规模相亲配对活动,极大地提高了找到理想搭档的效率。

利用哺乳动物细胞和基因组工程技术开发的功能筛选平台

近年来,研究人员开发了多个创新的哺乳动物细胞功能筛选平台。这些平台综合运用了基因组工程(Genome Engineering)技术,如CRISPR-Cas9基因编辑、慢病毒或反转录病毒转导,以及合成受体设计、工程化信号通路、深度测序和单细胞测序等先进技术。

功能筛选对于研究T细胞受体(TCR)的特性特别重要。这是因为TCR与肽段-主要组织相容性复合物的结合亲和力并不总能准确预测T细胞的激活程度。研究团队利用CRISPR-Cas9基因组编辑技术,构建了一个创新的TCR展示平台。该平台基于人类T细胞系,并包含一个TCR信号报告基因,当与抗原呈递细胞(APCs)表面的相应pMHC结合时会被激活。

此外,研究人员还开发了多种基于工程化APC的pMHC文库筛选技术。这些技术采用了多种创新的功能性选择方法,包括膜蛋白转移(trogocytosis)、具有合成信号功能的工程化MHC受体、能够检测T细胞分泌蛋白酶或细胞因子的APC,以及合成报告蛋白回路等。

在免疫受体和抗原筛选方面,研究人员正在开发新型工程化哺乳动物系统。Dobson和Lu等人的研究团队分别开发了创新的池化筛选系统,他们通过工程化病毒和哺乳动物细胞来研究免疫受体和抗原的相互作用。这些系统的原理是在慢病毒表面展示抗原,并将抗原信息编码在病毒基因组中。当这些病毒感染表达BCR或TCR的细胞时,通过单细胞测序可以同时获得免疫受体和抗原的身份信息。虽然目前这些功能筛选平台产生的数据规模还不足以支持机器学习分析,但未来有望进行优化,为免疫受体特异性预测提供重要数据支持。

基于结构的免疫受体特异性数据

科研人员主要使用冷冻电子显微镜(Cryo-EM)和X射线晶体衍射(X-ray Crystallography)等技术来研究抗体和T细胞受体(TCR)的三维结构,这些技术能够精确展示免疫受体与抗原之间的分子互动关系。

在研究中,由于互补决定区(CDR)环的高度灵活性,单独研究抗体或TCR的结构具有很大挑战。这些CDR环通过α-螺旋和β-折叠的局部二级结构模式形成特定构象。免疫受体的三级结构决定了其与抗原精确结合的三维构象,而四级结构则涉及多个蛋白亚基的组装——例如抗体中的轻链和重链,以及TCR中的α链和β链。

目前,公开的结构数据仍然相对有限。截至发表时,结构抗体数据库收录了8,782个抗体结构,其中8,388个是抗体-抗原复合物结构。相比之下,TCR相关的结构数据更少,仅有873个TCR结构和702个TCR-pMHC复合物结构。在新冠疫情期间,研究人员对SARS-CoV-2抗原的免疫识别机制进行了深入的结构分析,这不仅帮助理解免疫保护和记忆机制,也大大扩充了公共结构数据库的内容。

为了突破传统结构分析方法的通量限制,Antanasijevic团队开发了创新的多克隆抗体表位冷冻电镜映射技术(cryoEMPEM)。这项技术能在单次实验中同时解析多个抗体与同一靶向抗原的结构互动关系。例如,通过分析恒河猴的免疫血清样本,研究人员成功重建了16个结构独特的抗体类别的高分辨率图谱。该技术还被用于研究H5N1疫苗接种后的人体多克隆抗体反应,以及分析新冠大流行前后人体对季节性冠状病毒的抗体谱系。最近,研究人员还将cryoEMPEM与抗体库深度测序技术相结合,这一创新方法不仅能解析结构信息,还能确定抗体的序列身份,为抗体发现开辟了新途径。

未来展望:免疫学机器学习的数据生成

随着机器学习在免疫学中的应用不断深入,当前制约开发泛化性免疫受体特异性预测模型的核心瓶颈,在于免疫受体-抗原相互作用数据的数量与质量不足——无论是基于序列还是结构层面的数据均存在缺陷。基于序列的数据虽可大规模生成,但分辨率远低于结构数据;而结构数据的获取成本高、通量低,亟需其他数据类型辅助突破。融合两类数据或将成为提升模型泛化能力的关键。

抗体与T细胞受体的模型开发难度差异显著:抗体因高亲和力与可溶性表达更易表征,而TCR靶向MHC分子呈递的短肽,表位空间更为受限。尽管两者抗原景观差异使数据需求难以精确估算,但保守预测需将数据规模扩展 至少一个数量级(甚至多个数量级),方可覆盖更广泛的抗原-表位组合。要实现免疫受体特异性预测的突破,必须强化湿实验(生物实验室实体实验)与计算研究的协作。双方需深入理解彼此领域的数据生成瓶颈与模型开发需求,从而优化实验设计、提升数据质量,最终训练出能精准预测并设计免疫受体特异性的强泛化机器学习模型。

编译 | 于洲

审稿 | 王梓旭

参考资料

Mason D M, Reddy S T. Predicting adaptive immune receptor specificities by machine learning is a data generation problem[J]. Cell Systems, 2024, 15(12): 1190-1197.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档