首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | TRACER通过结合反应感知的分子生成和强化学习,显著提升了分子设计的合成可行性和优化效率

AI+Drug 文献速递 | TRACER通过结合反应感知的分子生成和强化学习,显著提升了分子设计的合成可行性和优化效率

作者头像
用户1151118
发布2026-01-08 12:38:59
发布2026-01-08 12:38:59
110
举报

1. Molecular optimization using a conditional transformer for reaction-aware compound exploration with reinforcement learning

期刊:Communications Chemistry

链接:https://www.nature.com/articles/s42004-025-01437-x

简介:本文提出了一种名为TRACER的分子生成框架,结合条件Transformer和蒙特卡洛树搜索(MCTS),用于在考虑合成可行性的情况下优化分子属性并生成合成路径。该方法通过条件Transformer预测给定反应物在特定反应类型下的产物,并结合MCTS进行分子结构优化。实验使用USPTO 1k TPL数据集进行训练和验证,结果表明TRACER能够有效生成具有高活性预测分数的化合物,并在DRD2、AKT1和CXCR4靶点的QSAR模型中表现出色。总结来说,TRACER通过结合反应感知的分子生成和强化学习,显著提升了分子设计的合成可行性和优化效率。

2. Sequence-based Drug-Target Complex Pre-training Enhances Protein-Ligand Binding Process Predictions Tackling Crypticity

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.01.14.633076v2

简介:本文提出了一种基于序列的预训练和微调框架ProMoSite和ProMoBind,用于增强蛋白质-配体结合过程的预测,特别是针对隐式结合位点的识别。该方法通过结合蛋白质和分子基础模型,利用结合位点注释进行预训练,动态建模微观尺度的蛋白质-配体相互作用。实验在scPDB v2017、COACH420、HOLO4K和PocketMiner等数据集上进行,结果表明ProMoSite在识别暴露和隐式结合位点方面优于现有方法,而ProMoBind在结合亲和力和动力学预测任务中也表现出色。该框架展示了在药物发现中广泛应用的潜力。

3. Narrowing the gap between machine learning scoring functions and free energy perturbation using augmented data

期刊:Communications Chemistry

链接:https://www.nature.com/articles/s42004-025-01428-y

简介:本文提出了一种基于注意力机制的图神经网络模型AEV-PLIG,用于预测蛋白质-配体结合亲和力,并通过数据增强策略显著提升了模型在药物发现中的适用性。该方法结合了原子环境向量(AEV)和蛋白质-配体相互作用图(PLIG),利用增强的训练数据(如模板建模和分子对接生成的结构)来提高预测准确性。实验在CASF-2016、OOD Test、0 Ligand Bias和FEP benchmark等数据集上进行,结果显示AEV-PLIG在多个基准测试中表现优异,尤其是在FEP benchmark上,加权平均PCC和Kendall’s τ分别从0.41和0.26提升至0.59和0.42。该研究表明,结合数据增强的机器学习模型能够有效缩小与自由能微扰(FEP)等物理方法的性能差距,同时具备更高的计算效率。

4. Accurate PROTAC targeted degradation prediction with DegradeMaster

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.02.03.636343v1

简介:本文提出了一种名为DegradeMaster的半监督E(3)-等变图神经网络,用于预测PROTAC(蛋白降解靶向嵌合体)的靶向降解能力,创新点在于通过E(3)-等变编码器引入3D几何约束,并结合基于记忆的伪标签策略和互注意力池化模块,解决了现有方法中空间信息丢失和标签稀缺的问题。方法上,DegradeMaster通过构建3D分子图、E(3)-等变编码、特征选择、互注意力池化和标签增强等步骤,实现了对PROTAC降解能力的准确预测。实验基于PROTAC-DB 3.0数据集,构建了PROTAC-1K和PROTAC-8K两个数据集,结果表明DegradeMaster在AUROC指标上比现有最佳模型提升了10.5%,并在BRD9和KRAS突变体的降解预测中分别达到了88.33%和77.78%的准确率。总结而言,DegradeMaster通过结合3D结构信息和半监督学习,显著提升了PROTAC降解预测的准确性,为加速药物发现提供了有力工具。

5. GTAT: empowering graph neural networks with cross attention

期刊:Scientific Reports

链接:https://www.nature.com/articles/s41598-025-88993-3

简介:本文提出了一种名为GTAT(Graph Topology Attention Networks)的图神经网络框架,创新点在于通过交叉注意力机制将节点特征与拓扑特征动态结合,提升了图表示学习的能力。方法上,GTAT首先从图结构中提取拓扑特征并编码为拓扑表示,随后通过交叉注意力层对节点特征和拓扑特征进行交互,从而增强节点表示的表达能力。实验在九个常用图数据集(如Cora、Citeseer、PubMed等)上进行,结果表明GTAT在分类任务中优于现有最先进模型,并有效缓解了过平滑问题,同时表现出对噪声数据的更强鲁棒性。总结而言,GTAT通过结合拓扑特征和交叉注意力机制,显著提升了图神经网络的表示能力和泛化性能。

6. A Conditional Denoising VAE-based Framework for Antimicrobial Peptides Generation with Preserving Desirable Properties

期刊:Bioinformatics

链接:https://doi.org/10.1093/bioinformatics/btaf069

简介:本文提出了一种基于条件去噪变分自编码器(VAE)的框架,用于生成具有特定理化性质的抗菌肽(AMPs),其创新点在于通过引入去噪机制和Transformer架构,结合定制化的损失函数,确保生成的AMPs保留所需的理化性质。方法上,模型通过添加噪声、位置编码和Transformer编码器-解码器结构,将AMPs的分布映射到标准正态分布,并通过重构损失、KL散度和性质保留损失进行优化。实验使用了来自DRAMP、LAMP和APD数据库的21,350条AMPs序列,结果表明该模型生成的AMPs在毒性和溶血性等关键指标上优于现有模型,且能够有效保留输入的理化性质。总结来说,该模型为生成具有特定功能的AMPs提供了一种有效的解决方案,有助于应对抗生素耐药性问题。

7. DrugImproverGPT: A Large Language Model for Drug Optimization with Fine-Tuning via Structured Policy Optimization

期刊:arXiv

链接:https://arxiv.org/abs/2502.07237

简介:本文提出了一种基于强化学习的大语言模型(LLM)微调算法,用于药物优化,旨在通过结构化策略优化(SPO)算法提升药物在目标属性上的表现,同时保留原始药物的有益化学特性。创新点在于引入了SPO算法,通过优势偏好对生成分子进行直接策略优化,解决了药物优化中的搜索空间复杂性、稀疏奖励、复杂评分标准及原始属性保留等挑战。实验使用了包含100万化合物的数据集,这些化合物在5种与癌细胞相关的人类蛋白和24个SARS-CoV-2病毒结合位点上进行了OEDOCK对接评分,结果表明SPO算法在多个目标属性上显著提升了原始药物的表现。总结来说,本文提出的DRUGIMPROVER框架通过SPO算法有效优化了药物生成模型,为药物优化提供了新的解决方案。

8. ScaffoldGPT: A Scaffold-based Large Language Model for Drug Improvement

期刊:arXiv

链接:https://arxiv.org/abs/2502.06891

简介:本文提出了一种基于分子骨架的大语言模型(LLM)SCAFFOLDGPT,用于药物优化,通过三阶段优化过程(预训练、微调和解码优化)提升药物属性,同时保留原始药物的有益特性。创新点在于引入了两阶段增量训练方法和基于奖励的TOP-N解码策略,有效解决了药物优化中的多目标平衡问题。实验使用了包含100万化合物的ZINC15数据集,这些化合物在3CLPro和RTCB蛋白上进行了对接评分,结果表明SCAFFOLDGPT在多个目标属性上显著优于现有基线方法。总结来说,SCAFFOLDGPT通过结合骨架优化和奖励引导的解码策略,成功提升了药物优化效果。

9. LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison

期刊:arXiv

链接:https://arxiv.org/abs/2502.06890

简介:本论文首次全面研究了大型语言模型(LLMs)在药物相互作用(DDI)预测中的应用,创新性地结合SMILES分子结构、靶标生物和基因交互信息作为文本输入,显著提升了预测性能。研究评估了18种不同规模的LLMs,通过零样本学习和微调方法进行实验,并使用DrugBank数据集及13个外部验证数据集测试模型表现,其中Phi-3.5(2.7B参数)模型在微调后达到0.978的灵敏度和0.919的准确率,超越传统机器学习方法。研究表明,小规模模型经过任务适配后性能优异,为临床实践提供了高效实用的工具。

10. NatureLM: Deciphering the Language of Nature for Scientific Discovery

期刊:arXiv

链接:https://arxiv.org/abs/2502.07527

简介:本文介绍了一种名为NatureLM的序列基础科学模型,能够跨领域生成和优化小分子、蛋白质、RNA及材料,并在多项任务中表现出色,其创新点在于通过大规模跨领域数据预训练实现了统一的科学语言建模。NatureLM基于Transformer解码器架构,使用143亿个标记的科学数据进行预训练,并通过指令微调完成多种任务。实验覆盖了USPTO-50K、Materials Project、Rfam等多个数据集,在逆合成预测、RNA生成和材料结构预测等任务中均达到或超过现有方法,模型性能随参数规模增加显著提升。NatureLM展示了作为通用科学发现工具的强大潜力,为药物研发、材料设计等领域提供了新途径。

11. Generation of Drug-Induced Cardiac Reactions towards Virtual Clinical Trials

期刊:arXiv

链接:https://arxiv.org/abs/2502.07297

简介:本文提出了一种名为DADM的药物反应生成模型,用于模拟药物对心电图(ECG)的影响以支持虚拟临床试验,其创新点在于结合了动态交叉注意力机制(DCA)和临床信息控制网络(CICN),以提升生成ECG的真实性和个体化药物反应的准确性。方法上,通过常微分方程系统(ODE)建模外部物理知识(EPK),并利用扩散模型逐步生成药物影响下的ECG信号。实验基于ECGRDVQ和ECGDMMLD两个公开数据集,涵盖8种药物方案,结果表明DADM在关键指标上的准确性和召回率分别提升至少5.79%和8%,显著优于8种现有生成模型。研究表明,DADM能够更真实地模拟药物对ECG的影响,为虚拟临床试验提供了有力工具。

12. Representational Alignment with Chemical Induced Fit for Molecular Relational Learning

期刊:arXiv

链接:https://arxiv.org/abs/2502.07027

简介:本文提出了一种基于化学诱导拟合的表示对齐方法(ReAlignFit),旨在通过引入化学知识来增强分子关系学习(MRL)的稳定性。ReAlignFit通过动态调整子结构表示,模拟分子结合过程中的构象变化,并结合子图信息瓶颈(S-GIB)优化具有高化学功能兼容性的子结构对,从而生成稳定的分子嵌入。实验在九个数据集上进行,结果表明ReAlignFit在两项任务中优于现有模型,并显著提高了模型在规则偏移和骨架偏移数据分布下的稳定性。具体方法包括使用GNN编码器生成子结构嵌入,设计基于子结构边重构的偏置校正函数(BCF)来模拟化学构象变化,并通过S-GIB优化子结构对。实验使用了Chromophore、MNSol、FreeSolv等数据集,结果显示ReAlignFit在预测性能和稳定性上均取得了显著提升。总结而言,ReAlignFit通过动态表示对齐和化学知识引导,有效提升了分子关系学习的稳定性和预测性能。

13. A Simple yet Effective DDG Predictor is An Unsupervised Antibody Optimizer and Explainer

期刊:arXiv

链接:https://arxiv.org/abs/2502.06913

简介:本文提出了一种轻量级的∆∆G预测器(Light-DDG),通过知识蒸馏和数据增强实现了高效的突变筛选与抗体优化,并首次将∆∆G预测与突变偏好解释结合,构建了统一的抗体优化框架(Uni-Anti)。方法上,采用结构感知的Transformer作为骨干网络,结合大规模增强数据集SKEMPI-Aug进行监督预训练,并通过迭代Shapley值估计学习突变偏好。实验在SKEMPI v2.0数据集上进行,对比18种方法,Light-DDG在7个评估指标中均显著优于现有方法,例如在关键指标上比Prompt-DDG提升15.45%以上,同时在SARS-CoV-2抗体优化案例中表现出色。研究表明,Light-DDG不仅提升了预测效率和准确性,还为蛋白质功能研究和定向进化提供了新思路。

14. CausalGeD: Blending Causality and Diffusion for Spatial Gene Expression Generation

期刊:arXiv

链接:https://arxiv.org/abs/2502.07751

简介:本文提出了一种结合因果关系和扩散模型的新框架CausalGeD,用于整合单细胞RNA测序(scRNA-seq)和空间转录组(ST)数据,生成空间基因表达。CausalGeD通过扩散和自回归过程结合,利用基因间的因果关系,设计了因果感知Transformer(CAT)模块,捕捉基因表达数据中的长程因果关系,无需预定义关系。实验在10个组织数据集上进行,CausalGeD在关键指标(如皮尔逊相关系数和结构相似性)上优于现有方法,提升了5-32%,显著提高了空间基因表达的预测精度和生物学解释性。总结而言,CausalGeD通过结合因果建模和扩散过程,有效提升了空间基因表达预测的性能和生物学意义。

15. Reinforcement Learning on AYA Dyads to Enhance Medication Adherence

期刊:arXiv

链接:https://arxiv.org/abs/2502.06835

简介:本文提出了一种多智能体强化学习(MARL)框架,用于个性化青少年和年轻成人(AYA)造血细胞移植(HCT)后的药物依从性干预,创新点在于通过多智能体协作和领域知识驱动的奖励函数设计,优化了干预效果。方法上,每个智能体负责一个干预组件,并在不同时间尺度上做出决策,利用因果图指导奖励函数设计以加速学习。实验基于Roadmap 2.0数据集构建了一个模拟环境,评估了三种算法(SingleAgent、MultiAgent和MultiAgent+SurrogateRwd)的表现,结果显示使用代理奖励函数的MultiAgent+SurrogateRwd在药物依从性上显著优于随机策略。总结来说,该框架在个性化干预和加速学习方面表现出色,为未来的临床试验奠定了基础。

16. Single-Step Consistent Diffusion Samplers

期刊:arXiv

链接:https://arxiv.org/abs/2502.07579

简介:本文提出了一种从非归一化目标分布中高效采样的新方法,创新性地设计了单步一致性扩散采样器(CDDS)和自一致性扩散采样器(SCDS),能够在极少量步骤内生成高质量样本。CDDS通过蒸馏预训练扩散模型实现单步采样,而SCDS无需预训练模型,通过自一致性损失联合学习扩散过程与大步长跳跃。实验在多种基准任务上展开,包括2维高斯混合模型(GMM)、10维漏斗分布、5维和50维多峰分布(MW54、MW52)以及1600维的对数高斯考克斯过程(LGCP),结果表明两种方法在Sinkhorn距离指标上均优于传统扩散采样器,并显著减少计算成本。研究为高效采样提供了新思路,尤其适用于高维复杂分布场景。

17. Outsourced diffusion sampling: Efficient posterior inference in latent spaces of generative models

期刊:arXiv

链接:https://arxiv.org/abs/2502.06999

简介:本文提出了一种名为“外包扩散采样”的方法,用于在生成模型的噪声空间中进行高效的后验推断,其创新点在于通过扩散模型在噪声空间中采样,从而在数据空间中生成符合后验分布的样本。该方法利用强化学习算法训练扩散采样器,确保通过确定性变换后的样本在数据空间中符合后验分布,适用于无条件GAN、VAE和基于流的先验模型。实验部分,作者在多个预训练先验模型上进行了验证,包括条件图像生成、基于人类反馈的强化学习和蛋白质结构生成,结果表明该方法在效率和效果上优于现有的非摊销和摊销推断方法。总结来说,外包扩散采样为复杂后验分布的高效采样提供了一种灵活且通用的解决方案。

18. Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification

期刊:arXiv

链接:https://arxiv.org/abs/2502.07299

简介:本文提出了一种名为Life-Code的统一框架,通过整合DNA、RNA和蛋白质序列数据,突破了传统多组学建模中的数据孤岛问题,并显著提升了跨模态知识迁移能力。该方法设计了基于密码子的分词器和混合长序列编码器,结合掩码语言建模和知识蒸馏技术以捕捉复杂的遗传交互信息。实验在多个基准数据集(如Genomic Benchmark、GUE、SpliceAI和DMS)上完成,结果表明Life-Code在DNA、RNA和蛋白质任务中均达到或超越现有模型性能,尤其在基因调控和蛋白质适应性预测任务中表现优异。这项研究为多组学数据分析提供了全面且高效的解决方案,推动了分子生物学领域的深度学习应用。

19. Drug Repurposing by Virtual Screening: identification of new already approved ROCK inhibitors as promising drugs to target neurodegeneration

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/67a780e06dde43c90812d9fe

简介:本研究通过虚拟筛选和药物再利用策略,发现已批准药物Ruxolitinib和Baricitinib是强效ROCK1/ROCK2抑制剂,具有治疗神经退行性疾病的潜力。研究结合化学空间分析、药效团建模和分子对接优化筛选方法,并通过分子动力学模拟验证Ruxolitinib与ROCK1/ROCK2的稳定性结合模式。实验使用ChEMBL数据库中的活性和非活性化合物数据集进行虚拟筛选,并在体外细胞模型中验证Ruxolitinib的安全性和抗炎效果,结果显示其显著降低神经炎症标志物C3水平且不影响细胞活力。该研究为开发基于Ruxolitinib的神经退行性疾病治疗方案提供了重要基础,同时展示了多靶点药物设计的新方向。

20. PyDescriptorC*: A Descriptor Calculation Tool for Decoding Chirality Cliffs and Revealing Hidden Patterns in Drug Discovery

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/67a995e86dde43c9083f817a

简介:本文介绍了一种名为PyDescriptorC*的新型分子描述符计算工具,能够通过3D分子结构高效计算112,194个描述符,特别是包含15,150个手性相关描述符,用于揭示手性悬崖和药物发现中的隐藏模式。该工具基于Python开发,结合PyMOL和多进程技术,支持mol2文件格式,并在HDAC4抑制剂和ADAM17抑制剂两个数据集上验证了其在QSAR建模中的优异性能,显著提升了模型的预测精度和可解释性。实验结果表明,手性描述符如S_isomers_H_1Bc和Stereoisomers_HASA2对模型性能至关重要,进一步证明了工具的价值。PyDescriptorC*为化学信息学和分子设计提供了强大的开源资源,推动了手性感知建模的发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档