首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | 利用潜在扩散模型设计多样且高效的抗菌肽,有效应对耐药性挑战

AI+Drug 文献速递 | 利用潜在扩散模型设计多样且高效的抗菌肽,有效应对耐药性挑战

作者头像
用户1151118
发布2026-01-08 12:37:54
发布2026-01-08 12:37:54
720
举报

1. Artificial intelligence using a latent diffusion model enables the generation of diverse and potent antimicrobial peptides

期刊:Science Advances

链接:https://www.science.org/doi/10.1126/sciadv.adp7171

简介:本文提出了一种结合扩散模型和变分自编码器(VAE)的生成管道,用于设计新型抗菌肽(AMPs),创新性地通过条件生成和多阶段筛选显著提升了生成肽的多样性和化学空间覆盖。研究使用基于Transformer的VAE作为编码器和解码器,并结合分类、聚类和分子动力学模拟进行筛选。实验基于UniProt数据库中少于50个氨基酸的肽序列数据集,生成的40个候选肽中有25个显示出抗菌或抗真菌活性,其中9个具有高活性(MIC ≤ 12.5 μM)。该方法为开发创新抗菌药物提供了强大工具,有助于应对抗生素耐药性问题。

2. Screening of multi deep learning-based de novo molecular generation models and their application for specific target molecular generation

期刊:Scientific Reports

链接:https://www.nature.com/articles/s41598-025-86840-z

简介:本文提出了一种基于改进的生成预训练变压器(GPT)架构和转移学习策略的分子生成模型,用于针对特定靶点(如非小细胞肺癌中的L858R/T790M/C797S突变EGFR)的药物设计,创新性地结合了T5模型和条件分子生成方法。研究通过修改位置编码、层归一化和激活函数优化了GPT模型,并引入了选择性状态空间模型Mamba进行对比。实验使用GuacaMol基准数据集和ChEMBL数据库中的“-tinib”化合物进行无条件与条件生成任务,最终T5MolGe模型在转移学习中表现出色,生成了7059个类药配体并通过虚拟筛选验证了其高结合亲和力。研究表明,结合Transformer完整编码器-解码器架构和转移学习是实现高效分子生成的有效途径。

3. Fuzz Testing Molecular Representation Using Deep Variational Anomaly Generation

期刊:Journal of Chemical Information and Modeling

链接:https://pubs.acs.org/doi/10.1021/acs.jcim.4c01876

简介:本文通过变分自编码器(VAE)生成异常的SELFIES分子字符串,测试其表示鲁棒性,创新性地提出了一种基于深度学习的模糊测试方法以探索分子表示的失效模式。研究使用了一个包含40万SELFIES字符串的数据集进行训练,并通过径向采样解码VAE潜在空间来生成异常数据,发现特定区域生成无效SELFIES的概率更高。实验表明,随着潜在空间半径增加,生成字符串的有效性显著降低,在半径为61时达到最低有效率11.2%。该研究为改进分子表示和开发更鲁棒的化学信息学工具提供了重要参考。

4. Omni-DNA: A Unified Genomic Foundation Model for Cross-Modal and Multi-Task Learning

期刊:arXiv

链接:https://arxiv.org/abs/2502.03499

简介:本文提出了一种统一的基因组基础模型Omni-DNA,用于跨模态和多任务学习,创新性地结合了DNA序列建模与多种任务(如分类、功能预测和DNA到图像生成)。研究基于改进的Transformer架构,采用非参数层归一化和相对位置嵌入,并通过预训练和微调完成模型优化。实验使用了Genomic Benchmark和NT下游任务数据集,116M参数规模的Omni-DNA在八项基因组任务中表现最佳,平均得分最高且显著优于DNABERT-2等模型。研究表明,Omni-DNA在跨模态多任务学习中具有广泛适用性和优越性能,为基因组学研究提供了强大的工具。

5. HOG-Diff: Higher-Order Guided Diffusion for Graph Generation

期刊:arXiv

链接:https://arxiv.org/abs/2502.04308

简介:本文提出了一种名为HOG-Diff的高阶引导扩散模型,用于生成具有复杂拓扑结构的图数据,创新性地通过粗到精的生成策略和高阶信息引导提升了图生成的质量。研究基于扩散模型框架,结合高阶图结构信息逐步生成图数据,并证明了其理论优势。实验在分子生成数据集(如QM9和ZINC250k)以及通用图生成数据集(如Community-small、Ego-small和Enzymes)上进行,结果表明HOG-Diff在多个指标上优于现有方法,尤其在保持化学和图空间分布一致性方面表现突出。该方法为图生成任务提供了新的思路,适用于药物发现和复杂网络建模等领域。

6. Generalize Drug Response Prediction by Latent Independent Projection for Asymmetric Constrained Domain Generalization

期刊:arXiv

链接:https://arxiv.org/abs/2502.04034v1

简介:本文提出了一种名为panCancerDR的新型领域泛化框架,用于在无目标域数据的情况下预测药物反应,创新点在于引入了潜在独立投影(LIP)模块和非对称自适应聚类约束以提取非冗余特征并优化潜在空间组织。研究通过编码器、分类器、领域判别器以及LIP模块和非对称聚类约束构建模型,并采用对抗训练捕获领域不变特征。实验基于GDSC细胞系数据集进行十种癌症类型的药物反应预测,并扩展到单细胞和患者水平数据(如TCGA数据集),结果表明该模型在多种药物预测中优于现有方法,尤其在单细胞和患者水平上表现出色。该研究为临床药物反应预测提供了高效且通用的解决方案。

7. Unravelling Causal Genetic Biomarkers of Alzheimer's Disease via Neuron to Gene-token Backtracking in Neural Architecture: A Groundbreaking Reverse-Gene-Finder Approach

期刊:arXiv

链接:https://www.arxiv.org/abs/2502.03938

简介:本文提出了一种名为Reverse-Gene-Finder的创新方法,通过神经网络反向追踪技术揭示阿尔茨海默病(AD)的潜在因果遗传生物标志物,创新点在于结合基因标记表示、因果追踪和反向追踪定位最可能的致病基因。研究基于预训练的Geneformer模型,利用单细胞基因表达数据对模型进行微调,并通过掩码已知AD相关基因识别最具因果效应的神经元(MCNs),再反向追踪到输入层定位最可能的致病基因(MCGs)。实验使用ROSMAP数据集中的单细胞基因表达数据,最终发现10个新的潜在致病基因(如PLXDC2、MT-CO3等),并通过文献验证和KEGG通路分析确认其与AD的相关性。该研究为复杂疾病遗传机制的研究提供了可解释且通用的新框架。

8. Iterative improvement of deep learning models using synthetic regulatory genomics

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.02.04.636130v1

简介:本文探讨了深度学习模型在合成调控基因组学数据上的表现,并提出了一种通过整合合成调控数据集迭代改进模型性能的新方法,创新点在于利用合成序列揭示模型局限性并提升其泛化能力。研究基于Enformer模型,通过新增自注意力层输出头进行微调,以预测Sox2表达。实验使用了Sox2 LCR合成负载数据集和多种ENCODE DNase-seq数据(如mESC_CJ7、H7_hESC等),结果表明微调后的模型在复杂序列修改和全基因组预测中显著优于基线模型。研究表明,结合合成调控数据的迭代训练策略可有效提高深度学习模型的预测准确性与适用范围。

9. Hierarchical Transfer Learning: An Agile and Equitable Strategy for Machine-Learning Interatomic Models

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/67a4db9afa469535b94580d7

简介:本文提出了一种新的分层迁移学习策略,用于开发化学上可扩展的机器学习原子间模型(ML-IAM),创新点在于将复杂的拟合问题分解为更小的独立参数块以提升效率和可扩展性。研究基于ChIMES ML-IAM框架,通过分离纯元素和交叉相互作用参数实现分层学习,并在碳氮混合系统中验证了其性能。实验利用密度泛函理论(DFT)生成训练数据集,在多种温度、压力和组成条件下测试模型,结果表明分层模型在多元素系统中的表现与传统方法相当,但在单一元素性质预测上更优。该策略显著降低了复杂系统的建模难度,同时提升了模型的可迁移性和验证效率。

10. Design and Construction of a Fully Functionalised Probe Library for Mode of Action Studies

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/67a4cb7281d2151a0261a70b

简介:本文设计并构建了一个包含1276种化合物的全功能化片段探针库,用于识别新型药物靶点,创新点在于结合了光亲和标记和生物正交化学方法以提高靶点鉴定效率。研究通过多条件筛选和自动化高通量合成方法完成探针库的构建,并对分子多样性和化学性质进行了详细分析。实验利用Molport数据库中的商业化合物作为起始原料,最终生成的探针库在极性表面积和LogP分布上表现出良好的多样性。该研究为药物发现提供了新工具,尤其适用于表型筛选和靶点去卷积领域。

11. The Hitchhiker's Guide to Socratic Methods in Prompting Large Language Models for Chemistry Applications

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/67a236fc6dde43c90892cf6f

简介:本文探讨了将苏格拉底方法融入大型语言模型(LLM)提示工程中以推动化学应用的潜力,创新点在于通过系统性提问和批判性对话提升模型的科学推理能力。研究基于定义、归纳、反诘等十项苏格拉底原则设计提示,并结合链式思维方法优化模型输出。实验使用Argo接口的ChatGPT 4o版本,针对芳香性定义、反应机制假设排除等问题进行测试,结果表明苏格拉底提示显著提升了模型在复杂化学问题上的推理深度和准确性。研究表明,苏格拉底方法为LLM在科学研究中的应用提供了强大的结构化工具,有助于解决多学科复杂问题。

12. Temporal Distribution Shift in Real-World Pharmaceutical Data: Implications for Uncertainty Quantification in QSAR Models

期刊:arXiv

链接:https://arxiv.org/abs/2502.03982

简介:本文探讨了在药物发现过程中,量化定量结构-活性关系(QSAR)模型预测不确定性的方法,创新点在于通过大规模真实世界制药数据集评估时间分布偏移对不确定性估计方法的影响。研究使用15个生物测定数据集,采用时间分割策略训练单任务模型,并比较了多种不确定性估计方法的性能。实验结果表明,时间和描述符空间中的显著分布偏移会削弱常用不确定性估计方法的表现,特别是在目标基于测定(TB)和ADME-T测定中表现差异明显。研究表明,在现实世界数据中识别可靠的不确定性量化方法面临重大挑战,强调了开发适应分布偏移策略的重要性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档