蛋白质与配体相互作用的研究是理解药物疗效和推动分子设计的关键。蛋白质-配体亲和力,即潜在药物分子与靶点蛋白结合的强度,直接影响药物筛选和优化的效果。在药物研发的早期阶段,虚拟筛选(Virtual Screening, VS)用于从大规模化学库中识别能够结合特定蛋白的活性化合物,而先导化合物优化(Hit-to-Lead Optimization, HLO)则聚焦于提升这些化合物的结合亲和力和药理特性。
然而,传统计算方法和现有机器学习模型通常将这两项任务分开处理,忽视了它们之间的相互依赖性和互补性。为此,Bin Feng 等人在 bioRxiv 预印本上发表的研究提出了一种名为 LigUnity 的基础模型,通过联合优化虚拟筛选和先导化合物优化,显著提升了蛋白质-配体亲和力预测的准确性和效率。
蛋白质-配体亲和力不仅是药物靶点选择性和疗效的关键指标,也是药物发现流程中虚拟筛选和先导化合物优化的核心。传统的分子对接和基于物理的计算方法,如自由能微扰(FEP),在这些任务中已有应用,但存在局限性:分子对接方法与实验亲和力的相关性较低,而 FEP 等方法虽较精确,却因需要考虑蛋白质柔性而计算成本高昂。
近年来,机器学习技术因其高效性和与传统方法相当的性能,成为药物发现中的重要工具。然而,现有机器学习方法多将虚拟筛选和先导化合物优化独立研究。这种分离策略源于药物发现流程的顺序性,但也导致了问题:专注于虚拟筛选的模型可能忽略决定相互作用的关键亚结构,难以区分结构相似的配体;而仅针对先导化合物优化的模型则受限于较小的化学空间,难以泛化至未见化学骨架的配体。
LigUnity 的提出旨在克服上述局限,通过联合优化虚拟筛选和先导化合物优化,构建一个统一的蛋白质-配体亲和力预测基础模型。其核心在于同时捕捉虚拟筛选中的粗粒化活性/非活性区分和先导化合物优化中的细粒化口袋特异性配体偏好。
LigUnity 的模型架构包括口袋编码器和配体编码器,分别用于表示蛋白质结合口袋和配体分子。在预训练阶段,模型采用两种互补的损失函数进行联合优化:对于虚拟筛选,LigUnity 利用对比学习(contrastive learning)拉近正口袋-配体对的嵌入距离,推远负对的嵌入距离,从而区分活性与非活性配体;对于先导化合物优化,模型通过列表排序(listwise ranking)损失函数对同一口袋的活性配体进行排序,缓解批次效应的影响并学习口袋特定的配体偏好。
具体而言,在虚拟筛选任务中,LigUnity 使用图神经网络(GNN)优化查询口袋的嵌入,并通过相似性检索从候选配体嵌入空间中快速筛选活性化合物。在先导化合物优化中,模型基于实验亲和力数据进行微调,准确排序未测量配体并识别高活性候选者。这种双任务联合训练策略使 LigUnity 能够充分利用两者的协同效应,提升预测性能。
研究团队在八个基准数据集上对 LigUnity 进行了全面测试,覆盖虚拟筛选和先导化合物优化的多种场景。在虚拟筛选方面,LigUnity 在 DUD-E、Dekois 2.0 和 LIT-PCBA 三个数据集上超越了 24 种竞争方法。特别在 DUD-E 和 Dekois 2.0 数据集中,其富集因子(Enrichment Factor, EF)1% 比最佳竞争方法提升超过 50%,显示出卓越的活性配体识别能力。此外,LigUnity 在未见蛋白质上的表现也较为稳定,证明其对新靶点的泛化能力。
在先导化合物优化任务中,LigUnity 在 JACS 和 Merck 两个 FEP 基准数据集上表现出色。在零样本(zero-shot)设置下,其性能超过现有计算方法;在少样本(few-shot)设置下,微调后性能进一步提升。例如,在 Merck 数据集上,LigUnity 使用 80% 的配体结合数据微调后,其决定系数(r²)达 0.501,与领先的商业软件 FEP+(OPLS4) 的 0.528 相当。这一结果表明,LigUnity 可作为高计算成本 FEP 方法的经济替代方案。此外,研究人员还将 LigUnity 集成到主动学习框架中,针对酪氨酸激酶 2(TYK2,一种自身免疫疾病靶点)进行多轮优化模拟。结果显示,LigUnity 在仅几次迭代中即识别出最佳结合亲和力的配体,凸显其在真实药物发现中的潜力。
LigUnity 的主要优势在于其联合优化策略,使其在虚拟筛选和先导化合物优化中均表现出色,同时具备较强的泛化能力和计算效率。然而,模型也存在局限性:目前仅适用于已知蛋白质靶点的实验,难以直接推广至无靶点信息的情景(如表型筛选)。此外,尽管 LigUnity 在无需精确结合姿势数据的情况下表现出色,但在计算资源充足时,整合此类数据可能进一步提升预测精度。
未来研究可通过整合多模态数据(如文本描述、细胞系信息)扩展 LigUnity 的适用范围。此外,结合精确的结合构象数据和活性数据,或在不同拆分设置(如 split-by-time、split-by-scaffold)下进一步验证模型的鲁棒性,将有助于提升其性能和实用性。这些改进可能使 LigUnity 在更广泛的药物发现场景中发挥作用。
https://doi.org/10.1101/2025.02.17.638554
本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。