该论文提出 GeoDirDock(GDD)方法,创新地将领域先验知识通过Geodesic引导融入扩散模型,解决传统盲扩散对接的结合位点定位与构象物理合理性问题。GDD 在平移、旋转、扭转空间沿Geodesic引导扩散去噪,通过动态调节引导强度平衡先验约束与模型自主性,并设计 GDD-TR(仅平移引导)和 GDD-Full(全空间引导)两种变体。实验基于 PDBBind 测试集,对比多种方法,结果显示 GDD-Full 在构象精度(RMSD)和物理合理性(PoseBusters 评分)上显著领先,且计算效率更高;同时验证了其在基于模板的先导优化和完全盲对接中的应用潜力。该论文为结构导向药物发现提供了高精度、高可靠性的分子对接新方案,推动 AI 驱动的对接技术向实际应用迈进。

结构导向药物发现(Structure-Based Drug Discovery, SBDD)的核心挑战在于精准预测小分子配体与蛋白质靶点的结合模式(Binding Mode),而分子对接技术正是解决这一挑战的关键工具。传统分子对接方法依赖经验性评分函数与启发式搜索策略,虽在药物研发中应用广泛,但在处理高柔性蛋白、复杂配体结构时,常面临搜索空间爆炸与构象预测不确定性的难题。近年来,以DiffDock为代表的扩散生成模型将分子对接转化为生成式任务,通过在平移(T³)、旋转(SO(3))与扭转(SO(2)ᵐ)构成的高维空间中进行去噪学习,突破了传统方法的搜索效率瓶颈。然而,这类“盲扩散”方法缺乏对结合位点的主动引导,易导致结合位点定位偏差与构象物理合理性不足,难以满足临床前药物研发对高精度、高可靠性预测的需求。
近日,发表于《Nature Machine Intelligence》的研究论文《Informed protein–ligand docking via geodesic guidance in translational, rotational and torsional spaces》提出了GeoDirDock(简称GDD)方法,创新性地将领域先验知识通过Geodesic引导融入扩散过程,实现了分子对接精度、物理合理性与计算效率的协同提升,为解决现有扩散对接方法的核心痛点提供了系统性方案。
GDD的核心创新在于构建了“领域知识-数学模型-扩散过程”的闭环映射,将专家对结合位点、配体构象的先验认知转化为可量化的引导信号,精准调控扩散模型的去噪轨迹。其技术框架围绕三个关键维度展开:
DiffDock的扩散过程基于T³×SO(3)×SO(2)ᵐ乘积空间,该空间精准刻画了配体在对接过程中的三大自由度:平移(T³,描述配体质心位置)、旋转(SO(3),描述配体整体朝向)、扭转(SO(2)ᵐ,描述配体内部键的旋转角度)。GDD的首要突破是在该空间中引入“Geodesic”概念——即空间中两点间的最短路径,确保引导信号符合分子运动的物理规律。
在平移空间(T³),研究通过构建“结合口袋球形模型”定义Geodesic:以蛋白质结合口袋中心为球心、7Å为半径构建引导球,配体当前位置到球表面的最短直线即为平移Geodesic。这种设计直接规避了盲对接中配体向非目标口袋扩散的问题,将平移搜索范围聚焦于生物学相关区域。

该图展示了在平移空间T³中的几何引导方法。具体来说,定义了一个结合球体(binding sphere),若配体质心位于球体外,则引导向量指向球心方向,并以距离作为缩放因子。图中通过实例(蛋白 1a0q)可视化了这一机制,直观地说明了如何通过几何引导将配体逐步收敛到结合位点附近。
在旋转空间(SO(3))与扭转空间(SO(2)ᵐ),Geodesic的计算则基于李群几何:SO(3)空间的Geodesic对应配体绕特定轴的最小角度旋转,SO(2)ᵐ空间的Geodesic则对应化学键的最小扭转幅度。通过这种几何约束,GDD确保配体的旋转与扭转始终沿能量最低路径进行,从根本上提升构象的物理合理性。

该图展示了旋转空间 SO(3) 的引导方法。通过定义两个相互正交的参考轴,映射到二维球面,实现配体旋转状态的参数化。图中比较了分子在反射情况下的旋转向量与真实参考向量,说明了如何通过几何大圆Geodesic来消除旋转歧义并正确对齐分子构象。

该图进一步说明了在旋转空间SO(3)上利用geodesic进行旋转引导的过程。通过选取当前旋转状态与目标区域之间的最短路径,计算出切向引导向量,从而保证旋转更新的方向性。图中直观展示了一个配体旋转状态点如何被几何引导逐步逼近目标角度区间。

该图展示了在扭转空间SO(2)ᵐ中的几何引导方法。这里以一个含两个扭转角的化合物为例,扭转空间被视作二维环面(torus)。在该环面上,两个点之间的最短Geodesic会周期性地绕行。图中说明了如何通过计算最短路径及其切向向量来引导配体扭转角收敛到目标区域。
为避免“过度引导”导致模型丧失探索最优构象的能力,GDD设计了动态引导机制,核心是引导向量V_update的加权融合策略:
其中,V_DiffDock为原始DiffDock的去噪向量,V_guide为基于Geodesic计算的引导向量,γ为引导强度系数。研究采用“S型衰减”策略调控γ:在扩散初始阶段(配体构象与目标差异大),γ取值接近1,强引导配体向结合口袋移动;随着去噪过程推进,γ逐渐衰减至0,让模型自主优化构象细节。这种“先全局引导、后局部优化”的模式,既保证了结合位点定位的准确性,又保留了模型对构象微调的灵活性。
此外,GDD还引入“模糊化(Fuzzing)策略”模拟真实专家知识的不确定性:在平移引导中,将结合口袋中心偏移一定范围(±7Å);在旋转与扭转引导中,将目标角度加入0.15倍的随机扰动。这种设计使GDD无需依赖绝对精确的先验信息,更贴近实际研发中“基于预测口袋”的应用场景,增强了方法的鲁棒性。
为明确不同空间引导的贡献,研究设计了两种GDD变体:
研究团队基于PDBBind测试集(包含373个蛋白-配体复合物),从“构象精度”“物理合理性”“计算效率”三个核心维度,对GDD与现有主流方法进行全面对比,关键结果与发现如下:
以“Top-1/Top-5构象的RMSD<2Å比例”和“RMSD中位数(Med)”为核心指标,GDD在Holo(蛋白质含配体晶体结构)与Apo(蛋白质无配体晶体结构)场景下均表现出显著优势(表1):

表1:不同方法 RMSD 精度对比。该表系统对比了多种方法在 holo 与 apo 两种条件下的对接 RMSD 表现。结果显示,GDD-Full 在所有设置下都显著优于 DiffDock 与传统方法,在 holo 场景中有超过 68% 的构象落在 2Å 以内,证明了在平移、旋转、扭转三个维度同时施加Geodesic引导后,预测精度和稳定性大幅提升。
在Holo场景中,GDD-Full(20/10)的Top-1 RMSD<2Å比例达68.44%,RMSD中位数仅1.24Å,远高于DiffDock(20/10)的37.08%(比例)与3.50Å(中位数),也优于刚性对接方法GNINA(42.7%,2.5Å)与DD-Pocket(20/10,47.7%,2.1Å)。即使在更具挑战性的Apo场景,GDD-Full(20/10)的Top-1 RMSD<2Å比例仍达59.43%,RMSD中位数1.60Å,较DiffDock(20/10)的27.51%(比例)与4.56Å(中位数)提升超一倍。
值得注意的是,GDD-TR(仅平移引导)的性能已优于DiffDock:在Holo场景下,GDD-TR(20/10)的Top-1 RMSD<2Å比例为44.97%,高于DiffDock(20/10)的37.08%,这表明“平移引导”已能有效解决盲对接的结合位点定位问题;而GDD-Full在GDD-TR基础上进一步提升,证明“旋转+扭转引导”是提升构象细节精度的关键。
现有深度学习对接方法常存在“RMSD精度高但构象不物理”的矛盾(如立体位阻冲突、键角扭曲)。研究采用PoseBusters套件(包含13项物理化学指标)对构象合理性进行量化评估,结果显示(表2):

表2:PoseBusters 物理合理性评估。该表通过 PoseBusters 打分考察预测构象的物理合理性。结果表明,GDD-Full 在 holo 条件下表现最佳,在 docking 与 re-docking 任务中均超越 DiffDock 和 GDD-TR,显示其生成的构象不仅在 RMSD 上接近真实,也在物理化学合理性上更具可信度。
在Holo场景的“对接”任务中,GDD-Full(20/40)的PoseBusters得分为30.67,高于DiffDock(20/40)的26.67与DD-Pocket(20/40)的29.4;在“重对接”任务(已知结合位点,仅预测构象)中,GDD-Full得分达26.67,显著优于DiffDock(16.0)与DD-Pocket(17.4)。这表明GDD预测的构象不仅与晶体结构接近,更符合真实分子的物理化学性质——其核心原因在于“旋转+扭转空间的Geodesic引导”限制了配体构象的不合理变化,避免了传统扩散模型中“为追求RMSD而牺牲物理性”的问题。
对比GDD-TR与GDD-Full的结果可发现:GDD-TR在Holo场景的PoseBusters得分为22.00(20/40),远低于GDD-Full的30.67,这进一步印证“仅平移引导无法保证构象物理性”,旋转与扭转引导是提升构象合理性的必要条件。

该图对比了在 BACE08 系统上的预测结果,显示引入扭转角指导的 GDD-Tor 相比 DiffDock 能显著降低 RMSD 与扭转角的误差,且更接近晶体结构真实值。结果说明,在模板迁移或结构相似的化合物系列中,基于角度的Geodesic引导能更好地捕捉构象规律,从而提升预测精度。
在药物研发的虚拟筛选场景中,计算效率直接决定方法的实用性。GDD通过“引导信号缩小搜索空间”,实现了计算效率的显著提升:
在Holo场景下,GDD-Full(20/10)的Top-1 RMSD<2Å比例(68.44%)已高于DiffDock(40/40)的38.27%——即GDD仅需20步去噪与10个采样样本,即可实现优于DiffDock 40步去噪、40个样本的精度。从内存与 runtime 来看,GDD-Full的显存占用较DiffDock降低约15%,单复合物对接时间缩短至1.2分钟(DiffDock为2.5分钟),为大规模虚拟筛选提供了效率基础。
除基础性能验证外,研究团队重点探索了GDD在实际药物研发场景中的应用价值,聚焦“基于模板的先导优化”与“完全盲对接”两大核心需求:
在先导化合物优化阶段,研究人员常需基于已知活性化合物(模板分子)的结合模式,预测结构相似候选分子的构象——这一过程称为“基于模板的建模”。GDD通过“最大公共子结构(MCS)+角度转移”实现了该场景的高效应用:
首先,通过MCS搜索识别模板分子与候选分子的共有结构片段;其次,将模板分子的扭转角信息(基于晶体结构)作为先验,通过GDD的扭转引导(V_guide)转移到候选分子中;最后,结合平移引导定位结合口袋,完成构象预测。
在针对BACE蛋白(阿尔茨海默病靶点,PDB ID 6QR3)的测试中,GDD-TrTor(平移+扭转引导)的表现如下:Top-1 RMSD<2Å比例达22.2%,中位数4.92Å,较DiffDock(11.1%,10.95Å)提升近一倍;扭转角MSE(平均平方误差)的平均值为3.23,中位数2.69,显著优于DiffDock的3.88(平均)与3.65(中位数)。这表明GDD可精准传递模板分子的结合模式,为“构效关系(SAR)分析”提供可靠的构象基础,加速先导化合物的结构优化进程。

该表展示了引入平移+扭转双重引导(GDD-TrTor)后的表现。与 DiffDock 相比,GDD-TrTor 在 RMSD 和扭转角 MSE 两个维度上均取得更优结果,特别是在 top-5 预测中优势明显。这证明了在相似化合物系列中,结合角度迁移的指导机制能有效提高 docking 的泛化能力和稳定性。

该表对比了基于最大公共子结构R (MCS) 的对接任务中,DiffDock 与仅采用扭转角指导的 GDD-Tor。结果显示,GDD-Tor 在 RMSD 和扭转角 MSE 上均取得更优成绩,尤其是在 top-1 预测时准确率显著提升。这表明即使只引入扭转角先验,模型也能更好地保持化学合理性,并在结构优化场景中展现出应用潜力。
在真实药物研发中,多数蛋白质缺乏配体结合的晶体结构(即Apo状态),需先通过口袋预测工具(如P2Rank、fpocket)定位潜在结合位点,再进行对接——这一过程称为“完全盲对接”。研究将GDD-TR与P2Rank、fpocket耦合,评估其在该场景的性能:
结果显示,耦合模型在Complex 6QR3上的RMSD分布更集中(中位数2.36-2.55Å),显著优于DiffDock的13.20Å,表明GDD-TR可有效利用预测口袋的先验信息,减少构象分布的多模态性(即避免生成无关口袋的构象)。尽管在全PDBBind测试集上,耦合模型的整体性能略逊于DiffDock(DiffDock的口袋预测能力更适配该数据集),但研究指出:通过选择“偏向隐蔽口袋”的预测工具(如针对传统方法难以识别的 cryptic sites),GDD的耦合模型有望在“难成药靶点”对接中展现独特优势——这为后续方法改进指明了方向。

这图展示了不同方法在 6QR3 复合物上的对接表现。左侧的 RMSD 分布图说明传统的口袋预测工具(如 fpocket、P2Rank)在该案例中能更准确定位口袋,而 DiffDock 往往生成偏离较大的构象。右侧的累积分布则显示,在更大规模的 PDBBind 测试集上,DiffDock 在整体预测成功率上仍保持优势,但结合口袋预测的方案则在局部场景中表现更优,提示两类方法具有互补性。

该图展示了特定案例 6QR3 的 docking 结果。DiffDock(灰色)错误预测在另一口袋,而 GeoDirDock(蓝色)则准确对齐真实结合位点(红色),表明几何引导能有效避免口袋预测错误。
尽管GDD已取得显著突破,研究团队仍客观分析了方法的局限,并提出未来的核心发展方向:
GDD目前为“刚性对接”方法,未考虑蛋白质在结合配体过程中的构象变化(即诱导契合效应)——这是导致其在Apo场景下性能仍低于Holo场景的核心原因。此外,现有验证主要基于结构相似的配体(如congeneric series),对全新骨架配体、复杂大环分子的预测能力尚未充分验证,泛化性仍需进一步提升。
GDD的提出,不仅在技术层面解决了现有扩散对接方法的核心痛点,更在方法论层面为“AI+药物发现”提供了重要启示:将领域先验知识通过数学模型转化为可解释、可调控的信号,是平衡AI模型“高效性”与“可靠性”的关键路径。从性能来看,GDD在构象精度、物理合理性、计算效率上均处于当前领域领先水平;从应用来看,其在先导优化、盲对接中的潜力已得到验证,有望快速落地于实际药物研发项目。
论文: Informed Protein–Ligand Docking Via Geodesic Guidance in Translational, Rotational and Torsional Spaces 期刊: Nature Machine Intelligence 链接: https://doi.org/10.1038/s42256-025-01091-x 代码: https://github.com/NBDsoftware/GDD https://doi.org/10.5281/zenodo.15755564