在医学诊断领域,传统的检测手段主要包括体格检查、病史回顾、实验室检测和影像学检查。然而,这些方法往往未能充分利用人体免疫系统中B细胞和T细胞受体(BCR和TCR)所蕴含的丰富信息。BCR和TCR是免疫系统识别和应对病原体的核心分子,其基因序列通过随机重组生成,表现出高度多样性,并在病原体暴露、疫苗接种或自身免疫反应中发生显著变化。
近年来,随着高通量测序技术的发展,研究人员开始探索利用这些序列进行疾病诊断的潜力。一项近期发表在《Science》杂志上的研究(Zaslavsky et al., 2025)提出了一种创新的机器学习框架—— MAchine Learning for Immunological Diagnosis (Mal-ID) ,通过分析BCR和TCR序列,实现了对多种疾病状态的同时检测,展示了免疫受体测序在诊断学中的广阔前景。

B细胞和T细胞受体的基因序列在个体发育过程中通过V(D)J重组生成,形成了一个多样化的序列库。这种多样性不仅使免疫系统能够识别广泛的抗原,还记录了过去和当前的免疫状态。例如,病原体感染、疫苗接种或自身免疫疾病会引发B细胞和T细胞的克隆扩增和选择过程,从而在BCR和TCR序列中留下特定模式。理论上,这些模式可作为生物标志物,用于开发一种通用诊断工具,评估多种疾病状态。然而,这一方法的临床应用面临诸多挑战,包括抗原特异性细胞的低频率、序列的高度异质性以及测序技术协议的差异等。
为应对上述挑战,研究团队开发了Mal-ID框架,该框架结合多种机器学习技术,系统性地分析BCR重链和TCRβ链序列,识别与疾病相关的特征。

具体而言,Mal-ID整合了以下三种模型:
这些模型的输出通过逻辑回归集成模型进行融合,最终生成个体疾病状态的预测结果。这种多层次的方法不仅提高了预测精度,还增强了模型对生物学机制的可解释性。

研究团队从593名个体中收集了BCR和TCR序列数据,涵盖COVID-19、HIV、系统性红斑狼疮(SLE)、1型糖尿病(T1D)、近期流感疫苗接种者以及健康对照组。样本通过血液采集获得,并使用高通量测序技术生成序列数据。训练后的Mal-ID模型在未参与训练的测试数据集上表现出色,多类接收者操作特征曲线下面积(AUROC)达到0.986,显示出极高的分类准确性。即使仅使用BCR数据,模型的AUROC仍可达0.959。此外,在针对特定疾病的检测中,例如区分SLE患者与其他疾病患者及健康对照组时,模型实现了93%的灵敏度和90%的特异性。
为验证模型的泛化能力,研究人员还在外部数据集上进行了测试,结果表明Mal-ID能够有效适应不同实验室生成的数据,批次效应及人口统计学因素(如年龄、性别和种族背景)对性能的影响较小。这一发现进一步证实了模型所识别的疾病相关信号具有普遍适用性。
Mal-ID不仅在疾病分类上表现优异,还通过分析关键序列特征提供了生物学见解。例如,研究团队发现模型能够识别与疾病相关的V基因使用模式和IgH亚型,这与已知的免疫学知识一致。此外,通过对外部数据库(如SARS-CoV-2结合BCR数据库)的序列进行验证,模型对COVID-19相关序列赋予了更高的关联分数,进一步证明了其生物学相关性。这种可解释性使Mal-ID不仅是一个诊断工具,还可用于探索疾病的免疫学基础。
该研究表明,免疫受体测序结合机器学习能够在无需先验抗原特异性知识的情况下,区分多种疾病状态并提取有意义的生物学信息。Mal-ID框架的优势在于其多功能性:它既能同时检测多种疾病,又可通过调整决策阈值优化特定疾病的诊断性能。这一特性使其在感染性疾病和自身免疫性疾病的早期检测与分类中具有潜在应用价值。
然而,Mal-ID的临床转化仍需克服若干障碍。首先,多重疾病状态的复杂性可能影响模型的准确性;其次,样本量、测序深度和疾病流行率等因素需要进一步优化。此外,研究强调,基于免疫受体测序的诊断结果在实际应用中应结合其他临床评估和实验室检测进行综合解读,以确保诊断的可靠性。
Zaslavsky等人提出的Mal-ID框架为免疫受体测序在疾病诊断中的应用开辟了新路径,凸显了机器学习在生物医学领域的潜力。随着测序技术的进步和临床数据的积累,这种方法有望发展为新一代诊断工具,为患者提供更精准的医疗服务。未来研究可进一步扩展其适用范围,验证其在更广泛人群和疾病类型中的表现,并探索如何将其整合到现有医疗体系中。这一突破不仅是技术上的进步,也为理解免疫系统与疾病之间的复杂关系提供了新的视角。
Zaslavsky, M.E., Craig, E., Michuda, J.K., Sehgal, N., Ram-Mohan, N., Lee, J.Y., Nguyen, K.D., Hoh, R.A., Pham, T.D., Röltgen, K. and Lam, B., 2025. Disease diagnostics using machine learning of B cell and T cell receptor sequences. Science, 387(6736), p.eadp2407. 本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。