抗体-抗原结合预测是抗体药物研发和免疫学研究中的核心问题。抗体通过与抗原特异性结合发挥中和病原体或标记清除的作用,其疗效高度依赖结合能力。然而,抗原的快速突变(如SARS-CoV-2病毒变体)常导致抗体失效,而传统实验方法通过“文库对文库”(library-on-library)穷举测试抗体-抗原组合,成本高昂且效率低下。此外,机器学习模型在分布外(out-of-distribution, OOD)预测中的表现不足,进一步限制了其应用。
近期,一项发表于bioRxiv的研究通过引入14种主动学习(Active Learning, AL)策略,显著提升了抗体-抗原结合预测的实验效率,减少了35%的抗原突变测试需求,为计算生物学和药物研发提供了新思路。
抗体-抗原结合预测的挑战 抗体(antibody, Ab)是由B细胞产生的蛋白质,能够特异性识别并结合抗原(antigen, Ag),在单克隆抗体疗法(如肿瘤学和新冠中和抗体)中具有重要应用。然而,预测抗体-抗原结合面临多重困难:
数据稀缺性 :实验标记抗体-抗原结合对需耗费大量资源,导致高质量数据集有限。分布外预测局限 :传统机器学习模型(如AbAgIntPre,ROC-AUC达0.82)在处理未见过的抗体或抗原时预测性能显著下降。实验成本高 :对抗原突变体的逐一测试使得大规模筛选难以实现。主动学习通过迭代选择“信息量最大”的样本进行标记,提供了一种潜在解决方案。然而,传统主动学习策略难以应对抗体-抗原间的“多对多”复杂关系,亟需针对性优化。
14种主动学习策略与Absolut!框架 研究团队基于Absolut!仿真框架构建了包含117种抗原突变和2230种抗体的结合矩阵,模拟真实实验环境。Absolut!利用三维晶格建模和结合能计算,精确模拟抗体CDRH3区与抗原的结合模式,为策略评估提供了可靠数据基础。
主动学习策略设计 分为两类:
模型驱动策略 委员会查询(Query-by-Committee, QBC) :通过5个卷积神经网络“投票”,选择预测分歧最大的抗原样本。梯度不确定性 :基于模型最后一层梯度幅值,筛选不确定性最高的抗体-抗原对。多样性驱动策略 汉明距离聚类 :选择与已标记抗原差异最大的突变体,优化样本代表性。序列比对距离 :根据氨基酸序列相似性,确保标记样本的多样性。研究在三种测试场景中评估了14种策略:
Test(完全OOD) :测试抗体和抗原均未出现在训练集中。TestSharedAB :新抗原与已知抗体组合。TestSharedAG :已知抗原与新抗体组合。实验结果与关键发现 结果显示,三种策略在不同场景中表现突出,其中汉明平均距离策略 效果最佳:
在完全OOD场景 中,ROC-AUC提升1.795%,所需抗原突变数量减少35%,学习过程比基线方法(随机选择)提前28步达到相同精度。 在TestSharedAB场景 中,AUC提升1.309%。 在TestSharedAG场景 中,梯度最大策略表现较优,AUC提升0.574%。 主要发现 :
多样性驱动策略(如汉明距离)在完全未知场景中优势显著,适合应对全新抗原突变。 模型不确定性策略(如梯度方法)在部分已知数据场景中更有效。 最优策略通过智能筛选显著降低了实验冗余,提高了模型泛化能力。 应用价值与局限性 应用价值 :
成本降低 :单次抗原突变测试可覆盖数百抗体,主动学习指导的批次筛选大幅节约资源。研发加速 :策略可用于快速响应病毒变异的抗体和疫苗设计。局限性 :
当前结果基于Absolut!仿真数据,未经真实湿实验验证,可能无法完全反映实验复杂性。 策略主要针对二分类预测(结合/不结合),未涵盖连续亲和力预测。 未来展望 研究为抗体-抗原结合预测提供了一套高效的主动学习工具箱,未来可从以下方向进一步完善:
真实实验验证 :在湿实验中测试策略的有效性。连续亲和力预测 :开发基于回归的主动学习方法,预测结合强度的连续值。可解释性提升 :整合SHAP等工具,解析模型决策过程。技术整合 :与自动化实验平台结合,实现实验设计的闭环优化。结语 这项研究展示了主动学习在抗体-抗原结合预测中的潜力,通过智能实验设计显著提升了效率并降低了成本。尽管尚需进一步验证,其方法论为计算生物学和药物研发提供了新视角。随着AI技术与生物实验的深度融合,主动学习有望在未来推动抗体疗法和免疫学研究的快速发展。
参考 论文Balashova, D., Frank, R., Kuzyakina, S., Weltevreden, D., Robert, P.A., Sandve, G.K. and Greiff, V., 2025. Active learning for improving out-of-distribution lab-in-the-loop experimental design. bioRxiv, pp.2025-02. https://doi.org/10.1101/2025.02.26.640110 代码https://github.com/csi-greifflab/AbAgAL 本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。