DeepRMSD由山东大学物理学院李伟峰、智峪生科郑良振、南洋理工大学生物科学学院慕宇光和中科院先进技术研究院魏彦杰等课题组联合开发,用于预测配体在蛋白质口袋中结合姿势的RMSD。
基于该算法的深度优化和改进,智峪生科团队联合山东大学团队在首届“兴智杯”全国人工智能创新应用大赛中的行业赋能-药物分子蛋白结合能力预测专题赛中斩获一等奖。该算法已在生物信息学期刊Briefings in Bioinformatics发表[1]。
1、背景介绍
“兴智杯”全国人工智能创新应用大赛由工业和信息部、科学技术部、深圳市人民政府共同主办,旨在进一步激发创新活力,促进人工智能核心技术突破和产业生态建设,推动人工智能与实体经济深度融合。
本次行业赋能-药物分子蛋白结合能力预测专题赛旨在推动人工智能在药物筛选中的应用。新药研发周期长、成本高是长期以来制约生物医药领域加速创新发展的难题。据统计,一款药物从立项到上市平均需要投入10亿美金并耗时10年左右,其中药物分子筛选是难度最大、费时最长的环节。近年来研究表明,采用人工智能算法设计药物筛选分子蛋白结合打分函数,可克服传统FEP或者MMGBSA等自由能计算方法存在的计算成本高昂、精度与速度平衡困难等痛点,加速在庞大分子空间中(~1080)找到对应高活性分子的进程,提高药物分子筛选效率,加快新药试验进程。
在本次行业赋能-药物分子蛋白结合能力预测专题赛中,训练集和测试集是深势科技FEP团队自制的万级别小分子蛋白复合物体系数据集,包含处理后的分子、蛋白复合物数据,包含口袋信息。参赛者可以通过机器学习、深度学习或基于力场、物理等经验特征进行建模,设计并实现具有精准预测分子蛋白口袋结合能力的模型,主要聚焦于打分函数的docking power,即对复合物中小分子3D构象和蛋白口袋侧链3D构象的挑选能力。
2、方法与结果
上海智峪和山东大学物理学院团队(“智能分子”,团队编号2304)参加了本届“兴智杯”行业赋能-药物分子蛋白结合能力预测专题赛。此次“智能分子”团队采用的主要模型是DeepRMSD。在特征提取方面,DeepRMSD基于范德华和静电相互作用势形式,首先计算了蛋白质与配体原子两两之间的距离,并对这些距离值分别作-1和-6次幂处理,然后根据特定的蛋白质-配体原子组合方式和距离处理方式分别进行求和,进而得到该原子组合的特征值 (Eq.1):
式中RA和L分别是蛋白质和配体的原子类型,i为-1或-6。将所有的特征值对接在一起形成该蛋白质-配体最终的特征向量,应用神经网络来拟合特征向量与RMSD、蛋白质口袋侧链Chi角之间的关系。众所周知,距离小分子较远的蛋白质原子或残基对小分子结合的影响是有限的,因此该算法设置了最远原子相互作用阈值,即蛋白质-小分子原子距离大于该阈值时,该原子对的相互作用忽略不计。“智能分子”团队单独训练了预测小分子构象RMSD与蛋白质口袋侧链Chi角的模型。其中,训练蛋白质口袋侧链Chi角的模型所设置的距离阈值为20 Å,对于小分子构象RMSD预测模型,则分别预训练了四个模型,所设置的距离阈值分别为15 Å、20 Å、25 Å以及全原子,并且尝试将这四个预训练模型集成在一起做预测。在测试集上的预测结果如图1:
图1 DeepRMSD在赛题测试集中的结果
可以看出,将四个模型集成在一起的结果表现最好,准确率为0.547,相比于baseline结果0.31提高了76.5%,这表明DeepRMSD在其它数据集中仍具备优异的性能。
在本届“兴智杯”行业赋能-药物分子蛋白结合能力预测专题赛中,“智能分子”团队(团队编号2304)斩获一等奖(图2),并在行业赋能专题赛颁奖典礼暨人工智能行业高峰论坛中作为获奖团队代表作专题报告。
图2. “兴智杯”行业赋能-药物分子蛋白结合能力预测专题赛一等奖获奖名单
3、总结与展望
虽然近些年基于机器学习和深度学习的打分函数层出不穷,但是它们大多聚焦于亲和力预测,当迁移到分子对接场景上时表现非常有限。比如,最开始的打分函数大多用天然蛋白质-配体复合物结构和亲和力数据来训练,当迁移到现实虚拟筛选盲对接产生的蛋白质-配体结构上时,这些打分函数普遍表现较差。一方面原因是天然构象与计算机对接产生的构象之间存在内在偏差;另一方面是绝大多数机器学习模型的表现依赖于训练集中蛋白质-配体的样本属性。因此,当前打分函数的鲁棒性和泛化能力是亟待提高的。
虚拟筛选的目的是挑选出与蛋白质具有较强结合能力的小分子,准确预测蛋白质-小分子亲和力的前提是要准确确定小分子在蛋白质结合口袋中的3D结构。当前产生蛋白质-小分子结合结构的手段之一是分子对接。然而,受限于打分函数的精度,分子对接程序的性能仍难以令人满意。在这里,打分函数的作用是对分子对接程序产生的小分子结构进行打分并重新排序,即打分函数的docking power。理想情况下,排名最高的小分子结合姿势最接近于天然构象,即与天然构象之间的RMSD近似为0。
团队核心成员王泽琛表示(山东大学物理学院博士生在读):“当前基于深度学习打分函数的核心是对蛋白质-配体相互作用进行建模表征,并与合适的深度学习算法相结合。在实际虚拟筛选过程中,模型的预测精度与计算速度均需兼顾,这就要求研究者根据理论知识和经验对蛋白质-配体特征进行合理设计,并设计合理的神经网络来拟合。”众所周知,蛋白质-配体的结合主要受非键相互作用的影响,比如范德华、静电相互作用、氢键和 堆叠等。因此,设计蛋白质-配体特征时有必要将这些物理相互作用考虑进去。DeepRMSD基于范德华和静电相互作用来表征蛋白质-配体相互作用,这为物理相互作用与深度学习的结合提供了范例。DeepRMSD在先前的redocking和cross-docking任务测试中表现优异,而此次在“兴智杯”行业赋能-药物分子蛋白结合能力预测专题赛中的优异表现也有力证明了DeepRMSD具备优异的泛化能力。值得注意的是,DeepRMSD的特征维度为1470,相比于绝大多数打分函数的特征维度更简单,这也有力也表明了基于物理相互作用的特征对于蛋白质-配体相互作用的结合是关键的。这也使得DeepRMSD在保持高准确性的同时,又能保证较快的运算速度和极低的计算代价。
近些年,不断有新的深度学习算法出现并得到了广泛应用,由最初的多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)到最近大火的transformer和图神经网络(GNN),这在一定程度上为打分函数的多样性奠定了基础。研究者可以这些深度学习算法为载体,设计合适的、合理的特征建模方式,从而推动深度学习打分函数的发展,进而提高虚拟筛选的准确性,在一定程度上降低小分子药物研发周期和经济投入。
参考文献:
[1] Wang, Z., Zheng, L., Wang, S., Lin, M., Wang, Z., Kong, A.W.K., Mu, Y., Wei, Y. and Li, W. A fully differentiable ligand pose optimization framework guided by deep learning and traditional scoring functions. Briefings in bioinformatics, bbac520 (2022). doi: https://doi.org/10.1093/bib/bbac520
--------- End ---------