统计平均势(也称基于知识的作用势)是用于模拟分子体系能量的常用模型之一。它通过分子的三维结构分析来产生几何空间的几率分布,进而获得分子体系的能量。尽管基于统计势的能量模型已经被成功地应用于蛋白设计,蛋白-配体结合等相关研究中,但是该类模型依然不能避免其局限性:因统计势基于经典的双粒子Kirkwood方程推导而获得,这一过程中仅使用与目标原子几何相关的单变量函数作为输入,忽略了背景原子与目标原子之间的相关性(即背景原子效应),从而造成该类统计势对训练集的依赖性。考虑背景原子效应需要研究原子间的多维几何分布几率,而目前的蛋白-配体结构数据集无法满足如此高维度的数据分析。
美国密歇根州立大学的Merz教授课题组提出一种有效解决该问题的方法。他们基于图形模型理论模拟分子体系的多维几率分布,结合贝叶斯场理论将高维度的几率分布降低为低维度的几率分布,从而可以在较小的数据集上推导出目标原子对的作用势能。在此基础上,他们发展了新的打分函数GARF,并对其在蛋白-配体相互作用方面的应用进行了探讨和验证。相关文章近期发表在美国化学会出版的J. Chem. Theory Comput杂志上。
Merz等人在其工作中提出采用Markov网络模型来表征分子体系,即每个原子作为网络的节点,节点之间受到原子对相互作用能的影响。因而,分子体系能量的波兹曼几率可以表征为所有原子在一系列几何空间的联合几率。基于Markov网络的可分解特性,可以将反映分子体系能量的高维度联合几率逐级降为低维度的几率,从而可以在较小的数据集上训练获得基于结构的势能。随后,作者采用贝叶斯场理论进一步简化Markov网络模型中非直接作用的背景原子对,近似忽略背景原子间的多体效应。作者在两个不同来源的数据集上(包括来自PDBbind数据库的晶体结构和基于分子动力学模拟采样获得的构象)研究两对原子CT-C.3X和O-O.3的分布几率。应用基于贝叶斯场理论的策略,将背景效应从原始的径向分布几率中剔除,结果显示不同来源的数据集能够产生基本一致的原子对几率分布(图-1)。
图-1基于两个不同数据集获得的原子对几率分布比较(A)原始的径向分布函数(B)应用贝叶斯场理论获得的几率分布。两个不同来源的数据集分别为:PDBbind数据库中10000多个蛋白-配体复合物晶体结构(橙色),经分子动力学模拟采样得到的250个ACE-ALA-NME分子片段构象(蓝色)。
基于根据贝叶斯场理论生成的原子对势,作者构建了新的打分函数GARF,并验证其在蛋白-配体亲合性预测方面的应用。他们从PDBbind数据库中挑选了954个高精度的蛋白-配体复合物晶体结构组成两个测试集:第一个测试集包含159个来自PDBbind核心集的复合物,第二个测试集包含795个来自PDBbind精炼集的复合物。打分函数GARF和溶剂模型KMTISM联合使用,不仅能够很好地重现复合物在晶体结构中的结合构象,基于最优对接构象的亲合性得分与实验亲合性数据也表现出较好的相关性(图-2)。除此之外,作者将基于势能的打分函数GARF与多状态系综的计算策略联合应用在HSP90复合物体系中,发现能够显著地提高蛋白-配体亲合性的预测精度。
图-2打分函数GARF在PDBbind测试集上的测试结果。(A) 159个晶体结构的计算值与实验亲合性的相关曲线;(B)159个复合物结构的对接构象最优值与实验亲合性的相关曲线;(C) 795个晶体结构的计算值与实验亲合性的相关曲线;(D)795个复合物结构的对接构象最优值与实验亲合性的相关曲线。
Merz小组提出了基于图形理论的高维度数据挖掘方法来产生原子对势的策略,打破了传统方法中依赖于双粒子Kirkwood方程的局限。他们考虑原子对在多维几何空间的几率分布,通过贝叶斯场理论合理地实现了降维过程,因此能够在较小的数据集上训练获得原子对势,并且不受数据来源的影响。他们发展的新策略为基于统计势的能量模型提供了新的思路。
参考文献:Zheng, Z.; Pei, J.; Bansal, N.; Liu, H.; Song, F.; Merz, K. M. Generation of pairwise potentials using multidimensional data mining.J. Chem. Theory Comput.2018, 14, 5045-5067.
领取专属 10元无门槛券
私享最新 技术干货