Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >JCIM|深度学习用于血液毒性预测和血液毒性化合物的结构分析

JCIM|深度学习用于血液毒性预测和血液毒性化合物的结构分析

作者头像
智药邦
发布于 2023-02-28 07:39:49
发布于 2023-02-28 07:39:49
1.4K0
举报
文章被收录于专栏:智药邦智药邦

2022年12月6日,中南大学湘雅药学院曹东升教授团队和浙江大学药学院侯廷军教授团队合作在Journal of Chemical Information and Modeling期刊上发表论文“Structural Analysis and Prediction of Hematotoxicity Using Deep Learning Approaches”。

血液毒性(Hematotoxicity)已成为药物发现中一种严重但被忽视的毒性。然而,只有少数计算模型被报道用于预测血液毒性。作者从公开资源中收集数据,构建了包含正负样本分子的血液毒性数据集。基于分子的SMILES序列,作者分别利用软件计算得到多样的分子描述符特征作为随机森林和极限梯度提升算法的输入和分子图作为基于图的深度学习模型GCN、MPNN、Attentive FP的输入,然后训练模型得到预测结果。

与其他相关规则和现有模型相比,本文的模型在高质量的外部验证集中获得了67.5%的BA和48.6%的F1结果,突出了模型的卓越可靠性和可推广性。然后,作者分析了模型学习到的原子权重的热图和SHAP值,并用于解释模型,以及从训练模型的总体水平和个体水平中错误分类的分子。作者使用匹配分子对分析(matched molecular pairanalysis, MMPA)和代表性子结构推导技术探索了现有血液毒性化合物的转化规律和独特的结构特征。这将为化学家优化或筛选分子提供更多有用的信息和方向。本研究将有助于筛选出血液毒性物质,从而提高治疗药物开发的有效性和成功率。

1 摘要

在这项研究中,作者构建了一个包含759种血液毒性化合物和1623种无血液毒性化合物的高质量数据集,然后基于7种机器学习(machine learning, ML)算法和9种分子表示的组合建立了一系列分类模型。基于两种数据分割策略和应用领域(applicability domain, AD)分析的结果表明,基于注意力分子指纹(Attentive FP)的最佳预测模型产生了验证集的平衡准确度(balanced accuracy, BA)为72.6%,AUC值为76.8%,测试集的BA为69.2%,AUC为75.9%。此外,与现有的过滤规则和模型相比,本文提出的模型实现了外部验证集的最高BA值67.5%。此外,沙普利加法解释(the shapley additive explanation, SHAP)和原子热图方法被用于发现与血液毒性相关的重要特征和结构片段,这可以为检测不期望的血液毒性化合物提供有用的提示。此外,采用匹配分子对分析(MMPA)和代表性子结构推导技术进一步表征和研究血液毒性化学物质的转化原理和独特的结构特征。本研究提出的基于图的新深度学习算法和深刻的解释可以作为一种可靠和有效的工具来评估新药开发中的血液毒性情况。

2 材料与方法

2.1 数据集

作者从公开资源中构建了一个血液毒性数据集,最终获得589个正样本、1183个负样本,合计1772个样本。接着,作者根据分子的Murcko骨架(Murcko scaffold),将其划分为包含1330个分子的训练集,包含442个分子的测试集。另外,作者收集了610个新分子作为外部验证集。

2.2 分子表示

作者采用了9种分子表示方法用于构建预测模型,包括:

1.分子图(molecular graph)。分子图将分子表示为图,即,其中是原子(节点)集合,是化学键(边)集合,可作为基于图的深度学习模型的输入。

2.206维的MOE2d描述符。其提供分子的部分电荷信息(partial charge information)、原子数和键数、细分表面积(subdivided surface areas)和其他分子物理属性。

3.166维MACCS,包含特定子结构信息的结构片段特征。

4.扩展连接分子指纹(Extended Connectivity Fingerprints, ECFP4),为1024 bit.

5.功能类指纹(Functional-Class Fingerprints, FCFP4)特征,为1024 bit.

6.150 bit的化学高级模板搜索(chemically advanced template search, CATS)特征,一种计算原子对之间距离的药效团指纹。

7.79 bit的电拓扑状态指数(electrotopological state indices, Estate)特征,表示受分子中所有其他原子的电子状态影响的原子的扰动电子状态。

8.200 bit的RDKit描述符(RDKit-d),一组构象无关描述符,可以是从分子的符号表示中获得的实验描述符或理论描述符。

9.RDKit指纹(the RDKit fingerprint, RDKit-f),1024 bit的哈希子结构或路径指纹。

在此,分子图的表示是通过Python包DGLlife计算得到,MOE2d、CATS和MACCS描述符分别由ChemDes、ChemoPyMOE计算得到。其他描述符是通过Konstanz Information Miner(KNIME)平台计算得到。总之,上述9种分子表示,代表分子的特征类型,通过对应工具的处理能够得到数据集中样本的特征,最后输入模型,得到预测结果。

2.3 模型构建和超参数优化

作者一共采用7个机器学习算法构建了血液毒性预测模型,包括:

1.随机森林(random forest, RF) RF是使用训练数据中的bootstrap样本和随机选择的特征创建的未剪枝的分类或回归树的集成。这是一种基于决策树的bagging扩展变体,它在决策树训练期间引入随机特征选择,以增强最终集成模型的通用性。

2.极限梯度提升算法(eXtreme Gradient Boosting, XGBoost) XGBoost是梯度增强框架的一种有效且可扩展的实现,它被视为新一代集成学习算法。

3.支持向量机(SVM) SVM是处理分类任务的一种很好的方法。输入向量被非线性地变换到非常高维度的特征空间,并在该特征空间中建立了线性决策曲面,并且决策曲面的特殊性质确保了学习机的高泛化能力。

4.GBDT GBDT是一种流行的集成决策树技术,它迭代地将几个弱学习者聚集在一起,以创建预测模型。这种方法已经在各种应用中表现出了出色的性能,因为它们通常对异常值具有鲁棒性,并且具有强大的预测能力。

5.图卷积神经网络(Graph Convolutional Networks, GCN) GNN旨在通过消息聚集策略迭代地聚集由原子特征向量编码的相邻原子信息以及由化学键特征向量编码的分子中的连接信息来学习每个原子的表示,然后更新中心原子的状态更新并进行读出操作(readout operation)。然后用独处的向量来预测分子性质。

6.消息传递神经网络(Message-Passing Neural Networks, MPNN) MPNN保持其对图同构的不变性,可以直接从分子图中学习化合物的特征。消息传递神经网络包括信息传递和节点更新两个步骤,最后通过读出操作得到整个分子的表示,然后进行预测分子性质。

7.注意力分子指纹模型(Attentive FP) Xiong等人提出了一种使用图注意机制从分子图中学习的图神经网络框架,其可以自动学习非局部的分子内相互作用。Attentive FP统一原子特征向量和相邻原子特征向量长度,并基于全连接层为每个原子及其邻居生成初始状态向量。在原子核分子级别,嵌入一个堆叠的关注层用于节点嵌入,这样就能使用注意力机制逐渐聚合信息以生成每个分子的新状态向量,并且状态向量用于编码分子图的结构信息并用于下游任务预测。

2.4 模型表现评估

作者主要采用5个评估指标评估模型的性能,包括:ROC曲线下面积AUC、F1分数、平衡准确率(balanced accuracy, BA)和马修斯相关系数(Matthews correlation coeffcient, MCC)。

另外,作者还基于相似度距离定义了适用领域(applicability domain, AD)指标。如果查询样本与训练集中最近邻居的Tanimoto相似度小于设定阈值,则认为该样本在适用领域之外,并且结果不可信。

3 结果与讨论

3.1 化学骨架与化学空间分析

图1 毒性数据集中,(A) 出现次数排名前150的Murcko骨架的云图,(B) 出现次数排名前150的碳骨架的云图。

本研究使用Murcko骨架核碳骨架探索了血液毒性数据集的化学多样性。从血液毒性化合物中,产生了414个独特的Murcko骨架和321个独特的碳骨架;从非血液毒性化合物中,产生了918个独特的Moocko骨架以及655个独特碳骨架。对于Murcko骨架,超过81%的骨架含有不超过10个分子。对于碳骨架,约64%含有不超过10个分子。从血液毒性数据中提取频率最高的150个支架,并用于生成相关的云图,以直观地说明数据的多样性。如图1所示,相关结构图片的大小表示具有特定骨架的分子的频率。骨架分析说明了血液毒性数据集的高度结构多样性,这将有助于开发具有高度通用性的血液毒性预测模型。

图S1 基于主成分分析(PCA)的化学空间分布

图S2 血液毒性和非血液毒性分子的8个分子描述符的分布,包括的描述符有:

a_acc, a_aro, a_don, b_ar, b_rotN, KierFlex, logS和SlogP.

此外,作者采用主成分分析(PCA)散点图(图S1)和血液毒性数据的8个分子描述符的分布图(图S2)来探索血液毒性数据中的化学空间。结果表明,选择测试集来验证从训练集开发的分类模型的预测性能是可靠的,而且进一步表明了使用先进的机器学习技术来完全分类血液毒性的必要性和意义。

3.2 血液毒性预测模型的性能

表1 基于骨架划分策略的机器学习算法和描述符的不同组合的模型性能

使用7种机器学习算法和9种分子表示构建了总共35种用于血液毒性分类的机器学习模型。这些模型在Python环境和KNIME平台中实现。基于Murcko骨架的分割策略被执行了10次以避免随机性的干扰,并且平均结果被用于进一步检查所有模型的准确性和鲁棒性。每个度量指标的最佳性能结果以粗体显示,表1汇总了验证集和测试集的所有预测结果。

表2 基于随机划分策略的机器学习算法和描述符的不同组合的模型性能

此外,在建模过程中作者还进行了10次随机划分的策略,平均结果用于进一步评估模型的性能。每个度量指标的最佳性能结果以粗体显示,验证集和测试集的所有预测结果汇总在表2中。正如预期的那样,基于随机划分策略的平均预测结果与基于骨架划分策略的预测结果大致相似,并且前者显示出较大的标准差。尽管一些模型的性能略有变化,但总体趋势并未改变。基于随机划分策略的SVM和GBDT模型的性能与骨架划分策略相似。在基于描述符的模型中,RF模型的性能仍然优于XGBoost模型,这与先前模型一致。此外,基于图的模型仍然比使用描述符的大多数其他模型表现更好。以Attentive FP模型的性能为例,基于随机划分的预测结果呈现出较高的标准差和稍差的结果,测试集的AUC为75.2±3.2%,BA为69.1±2.3%。根据上述结果,最佳的血液毒性分类模型是采用基于Murcko骨架的划分策略的Attentive FP模型。

表3 通过基于Tanimoto相似性的方法(the Tanimoto Similarity-Based Method)确定的训练和测试集中AD内或AD外的化合物数量

作者进一步探索了基于Tanimoto相似度的AD和RF模型中性能最好的结构指纹的RDKit指纹。如表3所示,AUC值的变化趋势与预期基本一致,AD内的AUC值始终高于AD外的AUC。随着相似度阈值的降低,AD内和AD外分子的相应AUC值均呈现下降趋势。值得注意的是,尽管AD以外的AUC值都有所下降,但作者的预测模型仍然可以获得66.7%至73.5%之间的值,这表明该模型对于AD以外的化合物仍然具有一定的可预测性,并且平均相似度高于0.57的化合物更有可能具有可靠的预测。

3.3 基于描述符组合的共识模型

表S4 基于描述符的不同组合的前10个血液毒性预测共识模型的性能

为了探索描述符的潜力并提高现有基于描述符的模型的预测性能,作者通过对两个性能最佳的模型(RF和XGBoost)的预测值进行平均,构建了两系列的共识分类模型。因此,作者基于各种算法和描述符建立了114个血液毒性预测模型。表S4显示了基于各种描述符组合的前10个共识血液毒性预测模型的预测结果。

图2 (A) 基于RF(蓝色)和XGBoost(橘色)的共识预测模型比较。(B) 基于描述符组合的简单模型(蓝色)和共识预测模型(橘色)的比较。

如图2A所示,基于RF和XGBoost方法的共识模型均未显示任何明显差异。此外,如图2B所示,基于各种描述符组合的这些共识模型的总体性能优于基于单个描述符的简单模型。结合各种描述符可以从不同角度更全面地表示所研究分子的结构细节和物理化学数据,从而提高共识模型的性能。使用RF算法的前5个共识模型在测试集上达到的平均AUC为75.4%,平均BA为69.8%;而使用XGBoost算法的前五个共识模型在测试集上可以达到的平均AUC为75.4%,平均BA为6.92%。在基于单个描述符的模型中,使用RF算法在测试集上仅达到的AUC为75.4±0.5,BA为67.0±0.4%;而使用XGBoost算法在测试集上达到的AUC为73.7±1.0%,BA为66.2±0.5%。这些结果进一步表明,不同描述符的适当组合将增强模型的预测能力。基于多种描述符的一些共识模型的性能甚至与注意FP模型的性能相似。

3.4 与其他过滤规则和模型比较

表4 本文模型与其他规则或模型的性能比较

为了强调本文的分类预测模型在识别血液毒性化合物方面的适用性和通用性,作者将模型的血液毒性预测能力与一些相关毒性规则和药物相似性规则进行了比较,包括急性毒性规则(the acute toxicity rules)、遗传毒性致癌性规则(genotoxic carcinogenicity rules)、皮肤致敏规则(skin sensitization rules)、SureChEMBL规则、利平斯基规则(Lipinski rules)、辉瑞规则(Pfizer rules)、葛兰素史克规则(GSK rules)、金三角(Golden Triangle)、RF_QNPR模型和Consensus_QNPR模型。所有结果汇总在表4中。

3.5 模型解释

模型解释是建模过程中的关键步骤。为了彻底评估分类模型并加深对这些模型的理解,作者通过SHAP方法分析了基于描述符的模型所使用的分子描述符的重要性,并且分析了Attentive FP模型产生的学习权重的原子热图。

图3 (A) MOE2d模型、(B) RDKit描述符模型、(C) CATS模型、(D) Estate模型、(E) MACCS模型和(F) ECFP4模型给出的具有代表性的分子描述符的重要性(前10位)和每个分子描述符的SHAP值。每个分子在每个描述符的线上用一个点表示,这些点叠加起来显示密度。

如图3所示,可以观察到,尽管不同种类的描述符代表不同的化学意义,但与特定原子和特定结构相关的一些描述符被表现最出色的模型捕获。例如,对于氮原子数和与氮相连的结构的一些描述符,如a_nN(氮原子数)、MQN9(环氮数)、Kc_ssnh(仲胺数)和MACCS_142(氮原子),它们对血液毒性和非血液毒性预测的贡献截然不同。这些描述符值较高的分子更有可能被预测为血液毒性化合物。

图4 基于Attentive FP模型的学习到的原子权重的热图:(A)血液毒性化合物和(B)非血液毒性化合物。被预测为血液毒性的原子结构以红色显示,而被预测为非血液毒性的则以蓝色显示。

除了对模型的全面解释外,单个分子的学习到的原子权重的热图可以提供对某些描述符重要性的深入理解。如图4所示,一些与氮原子或相关基团相关的片段以红色突出显示,表明这些片段有助于预测血液毒性,这与先前对描述符的分析一致,如a_nN(氮原子数)和Kc_ssnh(仲胺数)。此外,所有羰基的红色突出显示表明该结构有利于血液毒性,进一步证明了bitvector314 和bitvector650(均与羰基亚结构相关)在ECFP4结构指纹中的重要性。如果一个分子含有这些亚结构,则该分子被预测为具有血液毒性的可能性更大。对于正确预测的非血液毒性分子,碳链结构上的大多数碳原子结构以蓝色突出显示,证明这部分结构有利于非血液毒性。这与MACCS描述符中的判断一致,即MACCS_129描述符(亚甲基结构分为三组)和MACCS_128描述符(亚甲基构造分为两组)的频率可能会降低分子被分类为潜在血液毒性化学物质的可能性。结构分析表明,MACCS_129描述符的结构存在于53%的非血液毒性化合物中,比血液毒性化合物多约13%。

3.6 错误分类分子的分析

图5 基于错误分类的(A)血液毒性化合物和(B)非血液毒性化合物的Attentive FP模型的学习权重的原子热图。被预测为血液毒性的原子结构以红色显示,而被预测为非血液毒性的则以蓝色显示。

图6 错误分类的(A)血液毒性化合物和(B)非血液毒性化合物的分子描述符对输出值的影响(基础的输出值为训练集上的平均模型输出)。推动预测为血液毒性化合物的描述符为红色,而推动预测为非血液毒性化合物则为蓝色。

尽管上述不同的分析说明了重要描述符的一致性,但对少数分子的准确预测仍然是一项艰巨的任务。为了更好地理解模型的不精确性,作者进一步分析了一些典型错误分类的血液毒性和非血液毒性分子的原子热图和SHAP值,结果如图5和图6所示。

3.7 匹配分子对分析

表5 32组影响血液毒性的最常见化学转变

注:颜色的意义在于区分MMPs规则对血液毒性的贡献。蓝色表示相应的MMP倾向于降低分子的血液毒性,而红色表示相应的MMP倾向于增加分子的血液毒性。

作者采用匹配分子对(the matched molecular pairs, MMPs)方法进一步表征分子结构与血液毒性之间的关联。MMP是一对仅因单一局部结构变化而不同的化合物,属于同一对MMP的化合物可以通过子结构A到子结构B的分子转变而相互转变。2 382个分子的所有对的比较产生了总共13 460个不同的转变。所有少于10对且标签值不变的规则都被删除,以减少意外发生错误MMP的偶然性。最终,生成了821个MMP和32个规则。规则的详细列表如表5所示。

MMPs的结果表明,大多数规则是转变为短碳链,这有利于产生具有非血液毒性的化合物。一个这样的例子是由九个碳原子组成的长链转变成由两个基团连接的单个碳原子(表5中的ID为31),从而在所有相关分子中形成无血液毒性化合物。总的来说,研究中发现的上述化学转变与先前对血液毒性的解释一致。尽管对数据集的数量和不清楚的活性变化水平仍有一些限制,但这些可靠的转变可以很好地作为预测物理化学性质的补充工具。更重要的是,它可以为化学家提供有洞察力的建议,以改善潜在的先导化合物。

3.8 代表性子结构推导

表6 毒性分子的代表性结构

为了进一步关注特定的血液毒性子结构,作者开发了基于圆形拓扑的自动结构推导方法来识别更具体的血液毒性结构特征。最后,发现了与血液毒性相关的10个子结构及其示例化合物,并列于表6中。

4 结论

本研究收集了由2383个血液毒性和非血液毒性分子组成的数据集,并使用7种机器学习算法和9种不同的分子表示组合构建了一系列分类模型。基于Attentive FP方法的最佳分类器能够实现预测,取得验证集AUC为76.8±3.1%,测试集AUC为75.9±2.5%的结果。与基于单个描述符的模型相比,基于各种描述符组合的模型表现出更大的性能改进。

参考资料

Long T Z, Shi S H, Liu S, et al. Structural Analysis and Prediction of Hematotoxicity Using Deep Learning Approaches[J]. Journal of Chemical Information and Modeling, 2022.

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型
2022年9月17日,华南理工大学王领老师团队[1]在Briefings in Bioinformatics上发表文章。作者提出了FP-GNN,一种基于分子指纹(fingerprint,FP)和图神经网络(graph neural networks,GNN)的分子性质预测模型,结合了分子指纹表示和基于图神经网络的分子图表示。
智药邦
2022/11/16
3.7K0
Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型
JCIM|VenomPred2.0:基于AI的药物分子毒性预测工具
人工智能和机器学习方法在计算毒理学和药物设计中的应用越来越受欢迎,这一方法在评估化合物安全性、优化ADMET以及满足3R原则(the rules of 3R)等领域被认为非常具有前景。
智药邦
2024/05/08
1.2K3
JCIM|VenomPred2.0:基于AI的药物分子毒性预测工具
RDKit | 化学信息学与AI(专辑)
介绍RDKit相关知识点和运用以及RDKit作为处理化学、生物、药学和材料学科中分子数据作为可输入机器学习和深度学习模型的重要工具应用。内容涵盖了基于RDKit的Python3的分子的读写、化合物的分子指纹和分子描述符计算、化合物的2D/2D比对、化合物相似性搜索、化合物骨架分析和亚结构搜索、RMSD计算与构象生成优化、分子相似图与聚类分析、化学反应处理、可视化与化学空间探索及RDkit相关的机器学习、深度学习应用过程详解
DrugAI
2021/02/02
2.5K0
RDKit | 化学信息学与AI(专辑)
J. Chem. Inf. Model. | 人工智能增强多物种肝脏微粒体稳定性预测
今天给大家介绍一篇由中南大学湘雅药学院曹东升教授团队在Journal of Chemical Information and Modeling近期发表的关于肝微粒体稳定性性质预测模型的文章《Enhancing Multi-species Liver Microsomal Stability Prediction through Artificial Intelligence》。该文献通过整合多个数据库的数据,构建了一个庞大的多物种肝微粒体稳定性数据集,并利用机器学习算法构建了106个共识模型。通过SHAP方法和原子热图分析,揭示了影响肝微粒体稳定性的重要特征。研究还应用MMPA方法和亚结构衍生算法,提取了与肝微粒体稳定性相关的分子转化规则。这项研究为药物研发领域提供了新预测模型和分子解释,为药物设计和筛选提供了重要的指导和支持。
DrugAI
2024/04/12
2410
J. Chem. Inf. Model. | 人工智能增强多物种肝脏微粒体稳定性预测
JCIM|用机器学习预测分子活性,应充分考虑活性悬崖问题
分子性质预测的核心原则之一是相似性原则,但是分子对之间存在活性悬崖的情况(即分子结构相似但是活性却相差巨大的情况)。
智药邦
2023/02/14
1.5K1
JCIM|用机器学习预测分子活性,应充分考虑活性悬崖问题
JCIM|基于图注意机制的有机化合物合成可及性预测
2022年6月8日,浙江大学药学院的侯廷军和中南大学湘雅药学院的曹东升等人在J Chem Inf Model杂志发表文章,文章提出了一个名为GASA的基于图注意机制的预测模型,用于有机化合物的合成可及性评估。
智药邦
2022/11/16
7420
JCIM|基于图注意机制的有机化合物合成可及性预测
J. Hazard. Mater. | 吉林大学韩葳葳教授团队构建基于机器学习方法的在线预测平台高准确预测药物诱导骨毒性
药物诱导的骨毒性是药物研发、临床实践和环境管理中的重要安全风险。然而,目前缺乏针对骨毒性的专用数据集和有效预测算法,导致骨毒性风险评估面临挑战。
DrugAI
2025/04/02
1740
J. Hazard. Mater. | 吉林大学韩葳葳教授团队构建基于机器学习方法的在线预测平台高准确预测药物诱导骨毒性
计算化学的深度学习
人工神经网络的兴衰在计算机科学和计算化学的科学文献中都有详细记载。然而近二十年后,我们现在看到了对深度学习兴趣的复兴,这是一种基于多层神经网络的机器学习算法。在过去的几年里,我们看到了深度学习在许多领域的变革性影响,尤其是在语音识别和计算机视觉领域,在这些领域的大多数专家从业人员现在经常避开之前建立的有利于深度的模型学习模型。在这篇综述中,我们对深层神经网络理论及其独特性质进行了介绍性概述,将它们与化学信息学中使用的传统机器学习算法区分开来。通过概述深度神经网络的各种新兴应用,我们强调它的普遍性和广泛的适用性,以应对该领域的各种挑战,包括定量结构活性关系,虚拟筛选,蛋白质结构预测,量子化学,材料设计和财产预测。在回顾深度神经网络的表现时,我们观察到在不同的研究课题中,针对非神经网络最先进的模型的一致表现优异,而基于深度神经网络的模型通常超出了各自任务的“玻璃天花板”预期。加上用于训练深度神经网络的GPU加速计算的成熟度以及用于训练这些网络的化学数据的指数增长,我们预计深度学习算法将成为计算化学的宝贵工具。
DrugAI
2021/01/29
7700
加州大学提出FS-CAP模型,通过基于配体的小样本学习预测化合物活性
基于一种或几种现有化合物的已知活性,预测新化合物对生物物理或表型分析的活性是早期药物发现的共同目标。这个问题可以看作是小样本学习的挑战,之前的研究已经开发了一些小样本学习方法来分类化合物的活性和非活性。然而,超越分类和根据预期亲和力对化合物排序的能力更有价值,而这一方面与小样本学习相结合的研究,目前还鲜有涉及。
智药邦
2024/07/30
1490
加州大学提出FS-CAP模型,通过基于配体的小样本学习预测化合物活性
Knowledge-based BERT: 像计算化学家一样提取分子特征的方法
今天介绍一篇浙江大学智能创新药物研究院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子计算实验室联合在Briefings in Bioinformatics发表的一篇论文“Knowledge-based BERT: a method to extract molecular features like computational chemists”。本文提出了一种新的预训练策略,通过学习由计算化学家预定义的分子特征和原子特征,使得模型能够像计算化学家一样从SMILES中提取分子特征。K-BERT在多个成药性数据集上表现了优异的预测能力。此外,由K-BERT 生成的通用指纹 K-BERT-FP 在 15个药物数据集上表现出与 MACCS 相当的预测能力。并且通过进一步预训练,K-BERT-FP还可以学习到传统二进制指纹(如MACCS和ECFP4)无法表征的分子大小和手性信息。
DrugAI
2022/06/10
1.1K0
Knowledge-based BERT: 像计算化学家一样提取分子特征的方法
J. Chem. Inf. Model. | 增强指纹图注意力网络(FinGAT)模型用于抗生素发现
今天为大家介绍的是来自JunJie Wee和Kelin Xia团队的一篇关于抗生素发现的论文。人工智能(AI)技术在改变抗生素发现行业方面具有巨大潜力。高效和有效的分子特征化是实现高准确性学习用于抗生素发现的模型的关键。作者提出了一种通过结合基于序列的2D指纹和基于结构的图表示的指纹增强的图注意力网络(FinGAT)模型。在特征学习过程中,序列信息转化为指纹向量,结构信息通过GAT模块编码为另一个向量。这两个向量被连接并输入到多层感知机(MLP)进行抗生素活性分类。模型经过广泛的测试并与现有模型进行比较。研究发现, FinGAT在抗生素发现中可以胜过各种最先进的GNN模型。
DrugAI
2023/09/19
4210
J. Chem. Inf. Model. | 增强指纹图注意力网络(FinGAT)模型用于抗生素发现
J. Chem. Inf. Model. | ADMET-PrInt药物特性分析平台
今天为大家介绍的是来自Sabina Podlewska团队的一篇论文。在新药物的探索过程中,计算策略的发展改变了寻找新药的方式。虽然计算机辅助设计的策略依旧主要集中于确保候选化合物对特定目标的有效性,但是化合物的理化性质及ADMET(吸收、分布、代谢、排泄和毒性)特性的表征已成为计算机辅助药物设计不可或缺的一部分。在这项研究中,作者开发了一款在线应用程序ADMET-PrInt,用于对选定化合物的以下特性进行计算机辅助评估:心脏毒性、溶解度、遗传毒性、膜透过性和血浆蛋白结合能力。除了预测特定属性外,ADMET-PrInt还能够通过解释性方法识别影响这些属性的化合物特征。这对于药物化学家来说至关重要,因为它极大地简化了根据评估属性对化合物结构进行优化的过程。
DrugAI
2024/04/12
2390
J. Chem. Inf. Model. | ADMET-PrInt药物特性分析平台
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
今天给大家介绍的是 Journal of Chemical Information and Modeling 上,一篇有关提取图神经网络特征、更好地预测分子特性的方法的文章 "XGraphBoost: Extracting Graph Neural Network-Based Features for a Better Prediction of Molecular Properties"。
智药邦
2021/09/06
2K0
Sci Data | 非肽类大环化合物渗透性数据库
2025年1月3日,瑞典乌普萨拉大学Jan Kihlberg课题组在Scientific Data发表了题为A membrane permeability database for nonpeptidic macrocycles的论文。乌普萨拉大学化学系Vasanthanathan Poongavanam副教授 (Docent) 和Jan Kihlberg教授为论文共同通讯作者,硕士研究生冯秋实为论文第一作者,Danjo De Chavez博士为参与作者。
智药邦
2025/01/07
960
Sci Data | 非肽类大环化合物渗透性数据库
开源化学信息学工具包(Open Access Cheminformatics Toolkits)
CDK是结构化学信息学和生物信息学的开源Java库。 该项目由Christoph Steinbeck,Egon Willighagen与Jmol和JChemPaint的开发人员Dan Gezelter于2000年发起。迄今为止,它是在科学界广泛支持下开展的最活跃的开源化学信息学项目之一。
DrugAI
2021/02/01
2.4K0
JCIM|RJT-RL:一种基于化合物的可逆树表示和深度强化学习的分子设计方法
2022年8月12日,东京大学Ryuichiro Ishitani研究团队在Journal of Chemical Information and Modeling期刊上发表论文《Molecular Design Method Using a Reversible Tree Representation of Chemical Compounds and Deep Reinforcement Learning》,提出了RJT-RL,这是一个基于强化学习(reinforcement learning, RL)的分子生成和优化模型。
智药邦
2022/11/16
3690
JCIM|RJT-RL:一种基于化合物的可逆树表示和深度强化学习的分子设计方法
JMC|用于化合物优化中性质预测的可解释机器学习
大多数最先进的 ML 模型都具有黑匣子特性。在ML 模型的预测性能和解释能力之间通常需要权衡。
智药邦
2022/03/04
1.2K0
JMC|用于化合物优化中性质预测的可解释机器学习
榕树集--新型抗生素的发现
在本文中研究团队提出了一种基于深度学习的可解释方法,用于发现新型抗生素结构。通过神经网络学到的抗生素活性相关的化学亚结构被用于预测抗生素的结构类别。研究团队通过图神经网络预测了超过1200万个化合物的抗生素活性和毒性,并通过可解释的图算法确定了具有高抗生素活性和低毒性的化合物的亚结构理由。实验验证表明,具有特定亚结构的化合物对金黄色葡萄球菌具有抗生素活性,其中一种结构类别对耐药性较强的金黄色葡萄球菌和肠球菌具有选择性。这一方法为深度学习引导的抗生素结构类别发现提供了新途径,并强调了机器学习在药物发现中的可解释性和对选择性抗生素活性的化学基础的洞察力。
DrugScience
2024/01/22
2530
榕树集--新型抗生素的发现
J Cheminform|DeepSA:深度学习驱动的化合物可合成性预测
2023年11月2日,上海科技大学白芳老师团队在J Cheminform上发表文章DeepSA:a deep-learning driven predictor of compound synthesis accessibility。
智药邦
2024/03/05
4770
J Cheminform|DeepSA:深度学习驱动的化合物可合成性预测
Nucleic Acids Res. | ChemFH:一个用于过滤潜在泛实验干扰假阳性化合物的综合工具
药物开发通常是一个耗时且昂贵的过程。为了提高效率,高通量筛选(HTS)和虚拟筛选(VS)技术被广泛应用。然而,HTS仅能识别出筛选数据库中的0.01%至0.1%的真阳性化合物,而超过95%的阳性结果可能是假阳性。这些假阳性化合物被称为频繁命中化合物(FH),常见的假阳性干扰包括胶体聚集、光谱干扰和易反应化学性质等。针对这些挑战,中南大学湘雅药学院的曹东升教授课题组与湖南大学曾湘祥教授、以及香港浸会大学的吕爱平教授在Nucleic Acids Research上发表了题为“ChemFH: An Integrated Tool for Screening Frequent False Positives in Chemical Biology and Drug Discovery”的文章。该研究提出了ChemFH,一款全面预测和筛选各类潜在FH的在线平台,有助于提高药物发现效率。平台地址:https://chemfh.scbdd.com/。
DrugAI
2024/06/04
1840
Nucleic Acids Res. | ChemFH:一个用于过滤潜在泛实验干扰假阳性化合物的综合工具
推荐阅读
Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型
3.7K0
JCIM|VenomPred2.0:基于AI的药物分子毒性预测工具
1.2K3
RDKit | 化学信息学与AI(专辑)
2.5K0
J. Chem. Inf. Model. | 人工智能增强多物种肝脏微粒体稳定性预测
2410
JCIM|用机器学习预测分子活性,应充分考虑活性悬崖问题
1.5K1
JCIM|基于图注意机制的有机化合物合成可及性预测
7420
J. Hazard. Mater. | 吉林大学韩葳葳教授团队构建基于机器学习方法的在线预测平台高准确预测药物诱导骨毒性
1740
计算化学的深度学习
7700
加州大学提出FS-CAP模型,通过基于配体的小样本学习预测化合物活性
1490
Knowledge-based BERT: 像计算化学家一样提取分子特征的方法
1.1K0
J. Chem. Inf. Model. | 增强指纹图注意力网络(FinGAT)模型用于抗生素发现
4210
J. Chem. Inf. Model. | ADMET-PrInt药物特性分析平台
2390
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
2K0
Sci Data | 非肽类大环化合物渗透性数据库
960
开源化学信息学工具包(Open Access Cheminformatics Toolkits)
2.4K0
JCIM|RJT-RL:一种基于化合物的可逆树表示和深度强化学习的分子设计方法
3690
JMC|用于化合物优化中性质预测的可解释机器学习
1.2K0
榕树集--新型抗生素的发现
2530
J Cheminform|DeepSA:深度学习驱动的化合物可合成性预测
4770
Nucleic Acids Res. | ChemFH:一个用于过滤潜在泛实验干扰假阳性化合物的综合工具
1840
相关推荐
Brief Bioinform|FP-GNN:基于分子指纹和图神经网络的分子性质预测模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档