1. Deep lead optimization enveloped in protein pocket and its application in designing potent and selective ligands targeting LTK protein
期刊:Nature Machine Intelligence
链接:https://www.nature.com/articles/s42256-025-00997-w
简介:本文提出了一种名为Delete的深度学习模型,用于药物发现中的先导化合物优化,创新点在于结合生成式人工智能和基于结构的方法,通过统一的掩码策略处理所有优化子任务,并利用等变网络设计考虑复杂的蛋白质-配体相互作用。方法上,Delete通过生成式AI和结构优化,能够处理包括连接设计、片段扩展、骨架跃迁和侧链修饰在内的多种优化任务。实验使用CrossDock数据集进行训练和评估,结果表明Delete在结合能和药物相似性方面表现出色,成功设计出针对LTK蛋白的强效选择性抑制剂CA-B-1,并通过体外和体内实验验证了其抗肿瘤效果。总结而言,Delete为药物发现提供了一种高效、全面的先导化合物优化解决方案,展示了生成式AI在药物设计中的巨大潜力。
2. Bidirectional chemical intelligent net: A unified deep learning–based framework for predicting chemical reaction
期刊:Chinese Chemical Letters
链接:https://doi.org/10.1016/j.cclet.2025.110968
简介:本文提出了一种基于双向自回归变换器(BART)的深度学习框架BiCINet,用于预测化学反应,创新点在于其多功能性,能够同时预测有机合成和酶催化反应。方法上,BiCINet通过多任务迁移学习和任务提示集成,实现了双向化学反应预测。实验使用了USPTO_50K、USPTO_MIT和DrugBank等数据集,结果表明,BiCINet在USPTO_50K数据集上的前向和后向预测准确率分别达到80.7%和48.6%,并在代谢预测和酶催化反应预测中表现出色。总结来说,BiCINet为化学反应的全面理解提供了一个多功能且高效的预测框架。
3. MGHSTCKW: Predicting miRNA-drug sensitivity association using hypergraph sparse transformer and hypergraph-induced contrastive learning based on meta-path
期刊:Expert Systems with Applications
链接:https://doi.org/10.1016/j.eswa.2025.126879
简介:本文提出了一种名为MGHSTCKW的模型,用于预测miRNA与药物敏感性之间的关联,创新点在于结合了超图稀疏Transformer和基于元路径的超图对比学习,有效捕捉了高阶关系并减少了噪声影响。方法上,模型通过超图稀疏Transformer学习miRNA和药物的嵌入表示,并利用元路径诱导的图稀疏Transformer深度矩阵分解方法从关联网络中提取高质量嵌入,同时设计了自适应权重矩阵来纠正假阴性样本。实验使用NoncoRNA和ncDR数据库中的miRNA-药物敏感性关联数据集进行5折交叉验证,结果表明MGHSTCKW在AUC、AUPR和F1得分上均优于其他基线模型。总结来说,MGHSTCKW在预测miRNA-药物敏感性关联方面表现出色,具有较高的准确性和鲁棒性。
4. SpatialPPIv2: Enhancing protein–protein interaction prediction through graph neural networks with protein language models
期刊:Computational and Structural Biotechnology Journal
链接:https://doi.org/10.1016/j.csbj.2025.01.022
简介:本文介绍了SpatialPPIv2,一种基于图神经网络和蛋白质语言模型的蛋白质-蛋白质相互作用(PPI)预测方法,其创新点在于不再依赖蛋白质结构预测算法,能够独立预测蛋白质相互作用。该方法通过语言模型嵌入序列特征,并利用图注意力网络捕捉结构信息,结合PINDER数据集进行训练和验证。实验结果表明,SpatialPPIv2在预测PPI时表现出更高的准确性和鲁棒性,特别是在使用AlphaFold3、AlphaFold2和ESMFold等结构预测方法时仍能保持可靠性。SpatialPPIv2为蛋白质相互作用预测提供了一种高效且可靠的解决方案,有助于加速药物发现和合成生物学研究。
5. Hyperbolic multivariate feature learning in higher-order heterogeneous networks for drug–disease prediction
期刊:Artificial Intelligence in Medicine
链接:https://doi.org/10.1016/j.artmed.2025.103090
简介:本文提出了一种基于高阶异构网络的双曲多元特征学习方法(H3ML),用于药物-疾病关联预测,创新点在于利用双曲空间进行特征学习和高阶信息融合。方法上,首先从蛋白质-疾病和药物-蛋白质网络中挖掘高阶信息构建异构网络,然后通过双曲多元特征学习增强特征,最后使用双曲图注意力网络进行预测。实验在四个数据集(B-dataset、L-dataset、F-dataset、M-dataset)上进行,结果表明H3ML在AUROC和AUPR指标上均优于现有方法。总结而言,H3ML通过双曲空间和高阶信息融合显著提升了药物-疾病关联预测的准确性。
6. Top-DTI: Integrating Topological Deep Learning and Large Language Models for Drug Target Interaction Prediction
期刊:bioRxiv
链接:https://doi.org/10.1101/2025.02.07.637146
简介:本文提出了一种名为Top-DTI的新框架,通过结合拓扑数据分析和大型语言模型来预测药物-靶点相互作用,创新点在于将拓扑特征与序列嵌入动态融合,显著提升了预测性能。方法上,Top-DTI利用持久同源性从药物分子图像和蛋白质接触图中提取拓扑特征,同时使用ProtT5和MoLFormer模型生成蛋白质序列和药物SMILES字符串的嵌入,并通过图神经网络进行关系建模。实验在BioSNAP和Human基准数据集上进行,结果表明Top-DTI在随机分割和冷分割场景下均优于现有方法,特别是在冷分割场景中表现出更强的鲁棒性。总结而言,Top-DTI通过整合拓扑和序列信息,为药物发现提供了更高效和准确的预测工具。
7. hERG-LTN: A New Paradigm in hERG Cardiotoxicity Assessment Using Neuro-Symbolic and Generative AI Embedding (MegaMolBART, Llama3.2, Gemini, DeepSeek) Approach
期刊:bioRxiv
链接:https://doi.org/10.1101/2025.02.17.638731
简介:本文提出了一种基于神经符号人工智能(Neuro-Symbolic AI)和生成式AI嵌入(如MegaMolBART、Llama3.2、Gemini、DeepSeek)的新范式hERG-LTN,用于评估药物诱导的hERG心脏毒性,创新性地结合了数据驱动和知识驱动的方法,显著提升了预测精度。研究通过构建UnihERG_DB数据集,整合了来自ChEMBL、PubChem、BindingDB、GTP、hERG Karim's和hERG Blocker's的20,409个化合物,并利用Morgan和CDK指纹以及多种大型语言模型生成的特征进行训练,最终采用逻辑张量网络(LTN)开发了hERG预测模型。实验结果表明,hERG-LTN在External Test-1和hERG-70基准测试中表现优异,分别达到了0.931和0.827的准确率,超越了现有的多种模型。该研究为药物发现中的hERG心脏毒性评估提供了新的标准,展示了神经符号AI在精准药物基因组学中的巨大潜力。
8. SpliceSelectNet: A Hierarchical Transformer-Based Deep Learning Model for Splice Site Prediction
期刊:bioRxiv
链接:https://doi.org/10.1101/2025.02.17.638749
简介:本文提出了一种名为SpliceSelectNet(SSNet)的基于分层Transformer的深度学习模型,用于直接从DNA序列预测剪接位点,并能够处理长达100 kb的长距离依赖关系,同时保持单核苷酸水平的可解释性。该模型通过结合局部和全局注意力机制,有效捕捉剪接调控中的长距离相互作用,并在Gencode测试数据集上超越了现有最先进模型,同时在BRCA数据集和深内含子数据集上表现出优异的异常剪接预测性能。实验使用了Gencode、GTEx和Pangolin三个主要数据集进行训练,并在BRCA数据集和深内含子数据集上验证了模型的性能。结果表明,SSNet在剪接位点预测和异常剪接预测方面均表现出色,特别是在处理长距离突变时具有显著优势。SSNet的提出为基因组学和个性化医学领域提供了有价值的工具,并有望扩展到其他基因组任务中。
9. Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking
期刊:arXiv
链接:https://arxiv.org/abs/2502.01667
简介:本文提出了一种针对扩散模型的定制偏好优化框架(TailorPO),通过直接对中间步骤的噪声样本进行偏好排序,解决了现有直接偏好优化(DPO)方法在扩散模型中的梯度向不一致和偏好顺序不准确的问题。该方法在每个去噪步骤中从相同的输入生成噪声样本,并根据其步骤奖励直接排序,同时引入梯度指导以增强优化效果。实验在Stable Diffusion v1.5模型上进行,使用了动物相关提示和Pick-a-Pic数据集,结果表明TailorPO和TailorPO-G在生成符合人类偏好的图像方面显著优于其他方法。本文的创新在于首次理论分析了现有DPO框架的缺陷,并提出了一种针对扩散模型特性的优化方法,有效提升了模型生成图像的美学评分和人类偏好一致性。
10. Estimating Absolute Protein–Protein Binding Free Energies by a Super Learner Model
期刊:Journal of Chemical Information and Modeling
链接:https://doi.org/10.1021/acs.jcim.4c01641
简介:本文提出了一种基于机器学习集成模型(Super Learner, SL)的蛋白质-蛋白质结合自由能预测方法,创新点在于通过结合多种机器学习算法的优势,显著提高了预测的准确性和通用性。该方法利用Rosetta计算的蛋白质-蛋白质界面特征,训练了10种不同的机器学习算法,并通过加权组合生成SL模型,最终开发了一个名为PBEE的Python工具,能够快速计算蛋白质复合物的绝对结合自由能。实验使用了来自PDBbind、PRODIGY、SKEMPI2和Benchmark 5.5数据库的532个蛋白质-蛋白质复合物数据集,验证集上的预测精度达到1.98 kcal/mol的均方根误差(RMSE)和0.70的皮尔逊相关系数。研究结果表明,PBEE在预测蛋白质-蛋白质结合自由能方面具有高效性和准确性,适用于高通量计算和生物技术应用。
11. Equivariant Interaction-Aware Graph Network for Predicting the Binding Affinity of Protein-Ligand
期刊:IEEE Transactions on Computational Biology and Bioinformatics
链接:https://ieeexplore.ieee.org/document/10891729
简介:本文提出了一种用于预测蛋白质-配体结合亲和力的等变交互感知图网络(EIGN),其创新点在于通过距离启发的边门控注意力层(DEAL)和等变图卷积层(EGCL)来精确捕捉蛋白质-配体复合物中的交互信息。方法上,EIGN利用DEAL模拟节点间的交互,并通过EGCL学习复合物的三维几何结构,同时引入全局交互模块以全面学习蛋白质与配体之间的长程交互。实验在PDBbind和CSAR-HiQ两个基准数据集上进行,结果表明EIGN在预测蛋白质-配体结合亲和力方面表现出色,尤其在PDBbind核心集上,RMSE指标优于现有最佳方法SS-GNN 4.7%。总结而言,EIGN通过精确捕捉交互信息和学习复合物结构,显著提升了蛋白质-配体结合亲和力的预测性能。
12. ACP-CLB: An Anticancer Peptide Prediction Model Based on Multichannel Discriminative Processing and Integration of Large Pretrained Protein Language Models
期刊:Journal of Chemical Information and Modeling
链接:https://doi.org/10.1021/acs.jcim.4c02072
简介:本文提出了一种基于多通道判别处理和大规模预训练蛋白质语言模型的抗癌肽预测模型ACP-CLB,创新点在于针对不同特征类型采用独立的神经网络处理,并结合预训练模型捕捉更深层次的序列特征。方法上,ACP-CLB通过三个通道分别处理特征:CNN通道处理基于图形和统计特征的特征,BiLSTM通道结合BLOSUM62和AAindex特征,ESM-2通道利用预训练蛋白质语言模型进行深度特征提取。实验使用了AntiCp2Main、AntiCp2 Alternate、ACP740和cACP-DeepGram四个数据集进行评估,结果表明该模型在大多数指标上显著优于现有方法,尤其在准确率、召回率和F1分数上表现突出。总结而言,ACP-CLB通过多通道策略和预训练模型的有效结合,显著提升了抗癌肽的识别性能,具有广泛的应用潜力。
13. CoDNet: Controlled Diffusion Network for Structure Based Drug Design
期刊:Bioinformatics Advances
链接:https://doi.org/10.1093/bioadv/vbaf031
简介:本文提出了一种名为CoDNet的新型药物设计方法,结合了ControlNet的条件能力和扩散模型的生成能力,创新性地在基于扩散模型的药物开发中应用了ControlNet,能够从3D构象生成药物样化合物,并整合了键细节和分子信息。该方法通过引入高斯噪声和分类分布噪声,利用自适应噪声调度器和去噪Transformer,实现了分子图和3D构象的同步生成。实验使用了QM9数据集,包含约134,000个有机分子,CoDNet在有效性、连通性、新颖性和独特性等指标上均优于现有最先进方法,有效性达到99.02%,连通性达到99.902%。CoDNet在生成化学有效、稳定且多样化的分子结构方面表现出色,显著推动了基于结构的药物设计领域的发展。
14. Drug-Target Interaction/Affinity Prediction: Deep Learning Models and Advances Review
期刊:arXiv
链接:https://arxiv.org/abs/2502.15346
简介:本文综述了2016年至2025年间用于药物-靶点相互作用(DTI)和药物-靶点亲和力(DTA)预测的深度学习模型及其进展,重点介绍了输入表示、模型架构和数据集。创新点在于详细分类了180种预测方法,并提出了基于序列、结构和序列-结构混合的模型分类框架。方法上,论文分析了不同深度学习模型(如卷积神经网络、图神经网络、变分自编码器等)在DTI/DTA预测中的应用,并讨论了这些模型在输入表示、架构和性能上的差异。实验部分,论文使用了多个公开数据集(如KIBA、Davis、BindingDB等)进行模型评估,结果表明深度学习模型在预测精度和效率上优于传统方法。总结来说,本文为研究人员提供了全面的DTI/DTA预测方法综述,并指出了未来研究的方向和挑战。
15. PDeepPP:A Deep learning framework with Pretrained Protein language for peptide classification
期刊:arXiv
链接:https://arxiv.org/abs/2502.15610v1
简介:本文提出了一种名为PDeepPP的深度学习框架,通过结合预训练的蛋白质语言模型和并行神经网络(Transformer与CNN)来改进肽分类和蛋白质翻译后修饰(PTM)预测,创新点在于引入了Transductive Information Maximization(TIM)损失函数以处理不平衡数据集。该方法利用ESM-2模型提取蛋白质序列的上下文特征,并通过加权并行网络融合全局和局部特征,提升了预测精度。实验在多个任务上进行了验证,使用了包括UniDL4BioPep和MusiteDeep在内的33个基准数据集,结果表明PDeepPP在25个任务中达到了最先进的性能,显著减少了假阳性和假阴性。总结而言,PDeepPP为大规模肽发现和PTM分析提供了一种高效且可扩展的解决方案。
16. Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors
期刊:arXiv
链接:https://arxiv.org/abs/2502.15646
简介:本文提出了一种名为LEAP的新方法,通过结合数据增强掩码自编码器(DAMAE)和LASSO回归器,显著提高了在未见过的细胞系、组织和疾病模型中预测基因必需性和药物响应的性能。LEAP利用多个随机初始化的DAMAE模型生成多样化的基因表达表示,并通过分层集成策略增强预测的鲁棒性和泛化能力。实验使用了DepMap、PharmacoDB和PDX Encyclopedia等公开数据集,结果表明LEAP在预测基因依赖性和药物响应方面均优于现有方法,特别是在未见过的组织和疾病模型中表现尤为突出。LEAP的计算效率高且超参数调优简单,有望加速抗癌疗法的发现和个性化治疗的应用。
17. Fast and Accurate Blind Flexible Docking
期刊:arXiv
链接:https://arxiv.org/abs/2502.14934v1
简介:本文提出了一种名为FABFlex的快速准确的盲柔性分子对接模型,创新点在于通过回归式多任务学习框架解决了现有方法在蛋白质柔性和计算效率上的不足。FABFlex包含三个模块:口袋预测模块、配体对接模块和口袋对接模块,并通过迭代更新机制实现配体和口袋结构的连续优化。实验在PDBBind v2020数据集上进行,结果表明FABFlex在预测准确性和计算速度上均优于现有方法,特别是在配体RMSD低于2Å的比例上达到40.59%,且计算速度比当前最先进的柔性对接方法DynamicBind快208倍。总结来说,FABFlex为盲柔性分子对接提供了一种高效且准确的解决方案。
18. Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design
期刊:arXiv
链接:https://arxiv.org/abs/2502.14944v1
简介:本文提出了一种在推理时通过迭代优化奖励函数来改进扩散模型生成结果的新框架,创新点在于通过噪声注入和奖励引导的去噪过程逐步修正误差,从而优化复杂奖励函数。方法上,该框架在每次迭代中执行噪声注入和奖励引导的去噪,结合分类器引导或无导数引导技术,逐步优化生成结果。实验在蛋白质和细胞类型特异性调控DNA设计任务中验证了该方法的有效性,使用了UniRef数据库和Enformer架构的数据集,结果表明该方法在优化奖励函数方面优于现有的单次生成方法。总结而言,该框架通过迭代优化显著提升了扩散模型在生物序列设计中的性能。
19. MoMa: A Modular Deep Learning Framework for Material Property Prediction
期刊:arXiv
链接:https://arxiv.org/abs/2502.15483
简介:本文提出了一种名为MoMa的模块化深度学习框架,用于材料属性预测,创新点在于通过训练专用模块并自适应组合来解决材料任务的多样性和差异性挑战。方法上,MoMa首先在多个高资源数据集上训练模块,然后通过自适应模块组合算法为每个下游任务定制模块。实验在17个数据集上进行,结果表明MoMa在16/17的任务中表现优于所有基线方法,平均提升了14%,并在少样本和持续学习实验中展示了其实际应用潜力。总结来说,MoMa通过模块化学习为材料属性预测提供了一种新的范式,并开源以促进更广泛的社区合作。