关注殷赋科技,科研计算更简单!
导语
匹配分子对是研究与单一局部结构变化有关的化合物性质变化的流行概念,广泛用于化合物优化以深入了解构效关系;机器学习对于药物发现工作具有很高的实用价值,广泛用于预测化合物活性和毒理学效应。本文介绍的联合匹配分子对与机器学习方法将基于片段的匹配分子对与不同的机器学习方法相结合,以获得自动化的构效关系分解和预测。
图1.联合匹配分子对与机器学习方法预测过程
研究过程
1
数据收集
1.从ChEMBL 22中提取每个靶标的生物活性数据,仅保留打分为8或以上的来自结合测定类型B的IC 50,Kd和Ki值
2.针对每个靶标准备三组不同的匹配分子对用于评估预测
图2.针对不同靶标的三组匹配分子对
2
基于片段的匹配分子对的实现和特征向量编码
首先,通过逆合成规则将所有化合物分解成不同片段,并将所有片段组合和相应的剩余母核存储在数据库中。
随后,将形成匹配分子对的两个分子之间共享的静态核心和两个片段(F1和F2)分别编码。
然后,将两个静态核心合并为包含共享位的一个指纹并对不同的位进行编码。
最后,匹配分子对的三个剩余指纹,从静态核心的指纹开始,接着是片段的指纹。两个片段在两个方向(即F1到F2和F2到F1)彼此转换,每个转型都有不同的靶标值(ΔpIC50)。
图3.匹配分子对与特征向量编码
3
模型验证
1.基于片段的匹配分子对结合不同的机器学习方法在两个不同的复合优化方案中评估:新的片段和新的静态核心和转换
图4.两种不同情景的数据集验证
2.机器学习方法对模型性能的影响:
在大多数情况下,深度神经网络学习优于随机森林和梯度推进机这两种机器学习方法,在新的片段情况下达到了最高的性能。但在新的静态核心和转换情景中,性能随着数据同质性的增加而下降。然而,在所有可用的匹配分子对上训练的预测模型在这种情况下也是相当稳健的。因此,训练集的多样性正面影响了机器学习模型的适用性。
3.比较基于指纹的定量构效关系模型和匹配分子对结合机器学习方法的性能:
对深度神经网络回归模型进行复合指纹图谱和化合物的绝对活性作为目标值的两种训练验证。通过预测两种分子的pIC50并将其减去以获得匹配分子对的预测ΔpIC50来验证模型。所有数据集在两种验证情况下,衍生模型具有与匹配分子对结合机器学习方法相似的性能,并明显优于基于指纹的定量构效关系模型。结果表明,匹配分子对结合机器学习方法在涉及到明确的系列和同质数据集的优化时有突出的价值。
总结
本文所提出的联合匹配分子对与机器学习方法结合了匹配分子对从化合物中获取自动化的构效关系分解和预测以及机器学习方法从复杂数据外推的优点,可以支持将来的复合优化工作,在构效关系和从头设计方面有高实用价值。
参考文献:
Turk,S.B.Merget,F.Rippmann,S.Fulle.Coupling Matched Molecular Pairs with Machine Learning for Virtual Compound Optimization.[J]. J. Chem. Inf. Model,2017.
领取专属 10元无门槛券
私享最新 技术干货