

在计算机辅助药物设计(CADD)领域,相对结合自由能(RBFE)计算是预测化合物-靶点结合亲和力、指导先导化合物优化的核心技术。长期以来,商业软件如Schrödinger的FEP+凭借成熟的算法与优化流程占据主导地位,但封闭授权、定制化成本高、灵活性不足等问题限制了其在学术界和中小企业的普及。
近日,由Open Free Energy(OpenFE)联盟主导、15家国际顶尖药企联合参与的一项大规模基准测试研究,在ChemRxiv预印本平台发布。该研究通过覆盖95个蛋白-配体系统、超1700个配体的严苛验证,证实了开源工具OpenFE的RBFE协议在准确性、 可重复性和吞吐量上已达到工业级应用标准,其 开箱即用 性能比肩商业解决方案,为药物研发领域提供了兼具专业性与开放性的全新选择。

RBFE计算通过炼金术转化模拟两个相似配体与靶点蛋白的结合亲和力差异,其核心优势在于能以原子级精度指导配体结构优化,减少实验合成成本。然而,该技术的规模化应用长期面临两大瓶颈:
主流商业RBFE工具虽性能稳定,但封闭源代码导致用户无法根据特定研究需求修改算法,高昂的授权费用让中小型研发团队望而却步,且默认参数难以适配所有药物靶点类型。
现有开源RBFE方案多源于学术研究,缺乏工业级规模的多中心验证,存在数据兼容性差、结果重现性不足、高通量部署优化不足等问题,难以满足药物研发的严苛要求。
为填补这一空白,OpenFE联盟联合阿斯利康、拜耳、默克、罗氏、GSK等15家药企,开展了迄今为止规模最大的开源RBFE协议基准测试,旨在通过真实研发场景的验证,建立开源工具的工业应用标准。
该研究采用 公共数据集+私有数据集 的双重验证策略,从方法学严谨性、场景覆盖度和结果可靠性三个维度构建测试体系,确保结论的普适性与实用性。
OpenFE的RBFE协议基于混合拓扑策略,整合了多项前沿技术,形成兼具灵活性与高效性的计算框架:

图1. 计算两个相关配体间相对结合自由能的热力学循环。 通过炼金转化两个配体间差异原子,将一个配体转化为另一个配体。该转化同时在溶剂中()和结合位点中()进行,整体结合自由能差异。
研究采用加权均方根误差(RMSE)、平均无偏误差(MUE)、配体排序准确率(Kendall's τ)和最佳配体识别率等指标,全面评估协议性能:

图2. OpenFE和FEP+ RBFE协议在Ross et al.公共数据集上的准确性指标比较。 A) 成对(所有对所有)∆∆G根均方误差,按系统和整体加权,附带通过自举获得的95%置信区间。 B) 绝对成对误差的经验累积分布函数。 C) 协议的成对∆∆G符号估算准确性,作为实验∆∆G幅度的函数,使用0.5 kcal/mol分箱,每个分箱基部显示比较数量。

图6. 私有数据集相对于精选公共对应物对默认OpenFE协议呈现增加挑战。 A) OpenFE的私有数据集按体系和整体加权所有对所有成对∆∆G RMSE显示,附带通过自举获得的95%置信区间。每个系统配体总数叠加在相应条形基部。 B) 绝对成对误差的经验累积分布函数。 C) 协议的符号估算准确性,作为实验∆∆G幅度的函数,使用0.5 kcal/mol分箱,考虑的对总数叠加在相应分箱基部。

图3. 公共数据集上OpenFE与FEP+(Ross et al.)结果的偏差和相关统计比较。 仅纳入22个数据集,遵循Hahn et al.标准(至少16个配体,动态范围3 kcal/mol)。显示相对绝对误差(RAE)、根均方误差(RMSE)、平均无符号误差(MUE)、决定系数(R²)、Kendall’s τ以及最佳配体分数的箱线图。星号表示统计显著性(* p < 0.05;** p < 0.01;**** p < 0.0001;ns 无显著差异)。P值使用Wilcoxon检验获得。

图4. 模拟边绝对边向∆∆G误差的经验累积分布显示OpenFE和FEP+协议,在1和2 kcal/mol处标线。 FEP+在435个重叠转化集上给出略更准确的∆∆G估算。虽然OpenFE亚kcal/mol估算少于FEP+,但在2 kcal/mol阈值下性能差异减小。

图9. OpenFE协议在公共和私有数据集上显示良好可重现性。 经验累积分布函数显示所有边(实线)和最小对角外MBAR重叠>0.03的边(虚线)的绝对重复间∆∆G估算。通过MBAR重叠过滤减少具有大重复间变异的异常边数量。

图10. 箱线图显示公共数据集代表性按系统边向∆∆G RMSE值分布,跨1000次自举复制,使用每个边一个或三个随机选择重复的平均。如预期,三重复模拟在大多案例中导致更窄误差分布,尽管中位RMSE值平均差异<0.1 kcal/mol。

图11. 边向∆∆G准确性作为总采样时间的函数分析。 A) 绝对∆∆G误差的经验分布函数显示为公共(实线)和私有数据集(虚线),作为采样百分比的函数。增加采样仅略微减少高误差边(>2 kcal/mol)的分数(公共和私有数据集分别减少2.2%和2.7%)。 B) RMSE作为采样时间的函数显示为公共和私有数据集,附带通过自举获得的95%置信区间。两种数据集均显示小准确性改进(公共0.07[0.04, 0.1] kcal/mol,私有0.18[0.12,0.27] kcal/mol),随着模拟时间增加。


图5. P38片段数据集由于配体对齐差导致的问题原子映射示例。 (A) 配体5 1WBW与配体3间原子映射的2D描绘。黑色原子包括在映射区域,红色原子未映射,但属于虚拟区域。 (B) 配体5 1WBW与配体3的3D叠加。差3D配体对齐导致问题映射,其中吡啶环未映射,配体3的苯环映射到配体5 1WBW萘环的“错误”部分,引入键断裂。
该研究通过15家药企的多中心协作验证,证实了开源RBFE协议在药物研发场景中的工业级应用潜力。OpenFE的RBFE协议在准确性上接近商业工具FEP+,在重现性、吞吐量和灵活性上具有优势,其开源特性打破了商业工具的垄断,为药物研发提供了兼具专业性、可及性和可扩展性的解决方案。
参考文献:Baumann HM, Horton JT, Henry MM, Travitz A, Ries B, Gowers RJ, et al. Large-scale collaborative assessment of binding free energy calculations for drug discovery using OpenFE. ChemRxiv. 2025.
代码链接:https://github.com/OpenFreeEnergy/openfe