首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | AI与物理学携手,开启药物设计新纪元

AI+Drug 文献速递 | AI与物理学携手,开启药物设计新纪元

作者头像
用户1151118
发布2026-01-08 12:37:48
发布2026-01-08 12:37:48
800
举报

1. The physics-AI dialogue in drug design

期刊:RSC Med. Chem.

链接:https://pubs.rsc.org/en/content/articlelanding/2025/md/d4md00869c

简介:这篇论文回顾了机器学习(ML)在蛋白质结构预测和药物设计中的应用,强调了物理方法与AI技术的互补性,并指出当前ML方法在预测蛋白质构象集合和解释性方面的挑战。作者详细介绍了从1960年代蛋白质结构测定到现代深度学习模型(如AlphaFold)的发展历程,并探讨了ML在分子对接、分子动力学模拟和药物发现中的具体应用。实验部分涉及多种ML模型和物理方法的结合,使用了如Protein Data Bank(PDB)等公开数据集进行训练和验证,结果表明ML在蛋白质结构预测和药物设计中有显著优势,但仍需解决数据需求和环境成本问题。总结指出,未来应继续推动物理与AI的对话,以优化药物设计流程。

2. Enhancing Drug Discovery: Quantum Machine Learning for QSAR Prediction with Incomplete Data

期刊:arXiv

链接:https://arxiv.org/abs/2501.13395

简介:本文探讨了在药物发现中,量子机器学习在有限数据条件下对定量构效关系(QSAR)预测的优越性,创新点在于展示了量子分类器在特征数量较少和训练样本有限的情况下优于经典分类器的泛化能力。研究方法包括使用Morgan指纹和ImageMol嵌入分子数据,并通过主成分分析(PCA)进行特征选择,随后将降维后的数据输入经典和量子分类器进行性能比较。实验使用了BACE、BBBP和HIV三个公开数据集,结果表明量子分类器在低维特征和小样本情况下表现更优,尤其在BACE数据集上,量子分类器在特征数为3时准确率比经典分类器高出约8%。总结来说,量子分类器在处理不完整数据时表现出更强的鲁棒性和泛化能力,为药物发现中的数据挑战提供了新的解决方案。

3. Large Language Models Meet Graph Neural Networks for Text-Numeric Graph Reasoning

期刊:arXiv

链接:https://arxiv.org/abs/2501.16361

简介:本文提出了一种新的图结构——文本-数值图(TNG),结合大语言模型(LLM)和图神经网络(GNN)进行科学发现,创新点在于通过整合文本和数值信息,提升了图推理的准确性和网络推断能力。研究方法包括使用LLM生成基因和路径的文本嵌入,结合单细胞RNA测序数据,构建TNG并进行分类和路径推断。实验使用了肝硬化、阿尔茨海默病和胰腺癌的单细胞RNA测序数据集,结果表明LLM-GNN模型在分类准确性和网络推断方面显著优于传统方法。总结来说,TNG和LLM-GNN模型为科学发现提供了新的有效工具,尤其在处理复杂生物数据时表现出色。

4. Accurate Pocket Identification for Binding-Site-Agnostic Docking

期刊:arXiv

链接:https://arxiv.org/abs/2502.02371

简介:本文提出了一种名为RAPID-Net的深度学习模型,用于在无结合位点信息的情况下准确识别蛋白质的配体结合口袋,创新点在于通过软标签分割和ReLU激活函数,结合集成学习策略,显著提升了口袋预测的准确性和后续分子对接的性能。研究方法包括使用sc-PDB数据集进行模型训练,通过AutoDock Vina进行分子对接,并在PoseBusters、Astex Diverse Set、BU48和Coach420等数据集上评估模型性能。实验结果表明,RAPID-Net在对接准确性和口袋-配体交叠率上优于现有方法,尤其在处理大蛋白质时表现出色。总结来说,RAPID-Net为无结合位点信息的分子对接提供了高效且准确的解决方案,具有广泛的应用前景。

5. scGSDR: Harnessing Gene Semantics for Single-Cell Pharmacological Profiling

期刊:arXiv

链接:https://arxiv.org/abs/2502.01689

简介:该论文提出了一种名为scGSDR的单细胞药物反应预测模型,其创新点在于结合基因语义知识(细胞状态和细胞信号通路)和注意力机制来提高预测准确度并解释药物分子机制。该模型通过两个计算流程分别提取细胞状态和信号通路特征,并利用注意力机制融合这些特征进行药物反应预测,同时引入域适应以减少不同数据集间的差异。实验部分使用了批量RNA-seq和单细胞RNA-seq数据进行模型训练和验证,包括跨平台、跨细胞系和跨组织的药物反应预测,以及联合用药实验,使用的数据集包括GDSC、SCP542、GSE149215、GSE108383、GSE108394、GSE169246和GSE131984,结果表明scGSDR模型在不同实验设置下均表现出较高的预测准确性和稳健性,并能通过注意力机制识别关键基因通路,例如PLX4720的BCL2基因和Paclitaxel的ICAM1基因。scGSDR模型为单细胞药物反应分析提供了有价值的工具,有助于深入理解药物作用机制和发现潜在的基因通路。

6. Towards Fast Graph Generation via Autoregressive Noisy Filtration Modeling

期刊:arXiv

链接:https://arxiv.org/abs/2502.02415

简介:本文提出了一种名为ANFM的快速图生成自回归噪声过滤模型,其创新点在于使用噪声过滤建模和两阶段训练策略来提高图生成速度和质量。该方法首先通过自回归方式根据过滤函数逐步添加边来生成图,然后使用对抗性微调以提高生成图的真实性;模型训练分为两个阶段,第一阶段使用教师强制和噪声增强进行训练,第二阶段使用鉴别器和价值模型进行对抗性微调。实验在扩展的平面图、SBM、Lobster和蛋白质图数据集上进行,比较了不同过滤函数、调度函数和噪声增强策略的效果,结果表明ANFM模型在生成速度和质量方面均优于现有方法。ANFM模型为快速图生成提供了一种有效的新方法。

7. A Gridless Approach to Sampling and Classifying High-Dimensional Conformational Landscapes of Active Pharmaceutical Ingredients

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/679f540b81d2151a02e748e6

简介:本文提出了一种基于密度峰值高级聚类 (DPA) 和增强采样方法WTMetaD,用于高效构建高维构象自由能面 (FES) 的新方法,其创新点在于采用无网格方法,显著提高了计算效率,并具有比传统基于网格的方法更好的可扩展性。该方法首先利用WTMetaD生成构象数据集,然后使用Zwanzig方程重新加权构象密度,最后使用DPA进行构象分类。该方法在丙氨酸二肽(二维)、磺胺嘧啶(四维)和第七届CCDC盲测的分子XXXII(十一维)上进行了测试,并通过边缘自由能收敛和聚类集比较进行一致性分析,结果表明该方法在低维情况下表现良好,但在十一维情况下可靠性有所降低。该方法为表征高度柔性分子的构象集合提供了一种系统、高效的新途径。

8. Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning

期刊:arXiv

链接:https://arxiv.org/abs/2502.02871

简介:该论文提出多模态大语言模型(MLLMs)在科学推理中的重要作用,特别是在数学、物理、化学和生物学等领域。创新点在于通过整合文本、图像等多种模态数据,MLLMs能够克服现有科学推理模型在跨领域泛化和多模态感知方面的局限。论文提出了一个四阶段的研究路线图,从广泛知识识别到创造性假设生成,逐步提升MLLMs的科学推理能力。实验方面,论文总结了当前MLLMs在科学推理中的应用,并指出其在数据整合、知识检索、上下文理解等方面的优势,同时强调了数据集多样性和推理深度等挑战。总结来看,MLLMs有望通过多模态学习技术推动科学推理的发展,最终实现通用人工智能(AGI)。

9. Mol-LLM: Generalist Molecular LLM with Improved Graph Utilization

期刊:arXiv

链接:https://arxiv.org/abs/2502.02810v1

简介:该论文提出了Mol-LLM,一种通用分子大语言模型,通过改进分子图结构的利用来提升分子任务的性能。创新点在于提出了一种多模态训练方法,结合分子结构偏好优化(MolPO),使模型能够更好地区分正确和错误的分子结构。实验方面,论文在多个分子基准任务上进行了测试,包括分子性质预测、化学反应预测、分子描述生成等,使用了MoleculeNet、Mol-Instruction、SMolInstruct和ChEBI-20等数据集。结果表明,Mol-LLM在大多数任务中表现优于现有的通用分子大语言模型,并在某些任务上超越了专用模型。总结来看,Mol-LLM通过改进分子结构理解,展示了在药物发现和新材料发现等实际应用中的潜力。

10. Achieving Operational Universality through a Turing Complete Chemputer

期刊:arXiv

链接:https://arxiv.org/abs/2502.02872

简介:该论文提出了一种基于图灵机原理的化学合成机器人(Chemputer),通过化学描述语言(XDL)实现了化学合成的自动化和通用性。创新点在于将图灵完备性引入化学合成领域,使得化学合成机器能够执行任何已知的合成路径。论文通过引入条件执行和化学结构的偏好优化,提升了化学合成的灵活性和效率。实验部分展示了Chemputer在颜色空间探索和化学反应预测中的应用,使用了RGB颜色空间作为化学空间探索的代理,并通过条件逻辑实现了动态反应控制。总结来看,该研究为化学合成的自动化和智能化提供了新的理论基础和实践工具,推动了化学合成的通用性和可编程性。

11. Automatic Prompt Optimization Techniques: Exploring the Potential for Synthetic Data Generation

期刊:arXiv

链接:https://arxiv.org/abs/2502.03078

简介:本文探讨了自动提示优化技术在合成数据生成中的潜力,特别是在医疗等敏感领域,提出了一种无需直接访问真实数据的合成数据生成方法。作者通过PRISMA指南系统回顾了2020年至2024年间发表的六项研究,分析了反馈驱动、基于错误和控制理论三种自动提示优化方法,发现这些方法在提示优化和适应方面表现出色,但需要集成框架以进一步提升合成数据生成质量。实验部分未提及具体数据集,但强调了这些方法在无真实数据访问情况下的有效性。总结指出,自动提示优化技术有望在敏感领域中推动合成数据生成的发展,减少人工干预并提高数据质量。

12. Efficient extraction of medication information from clinical notes: an evaluation in two languages

期刊:arXiv

链接:https://arxiv.org/abs/2502.03257

简介:这篇论文提出了一种创新的、基于Transformer的低计算成本关系提取架构,用于从法语和英语临床文本中提取药物信息及其相关属性。该方法通过连接词嵌入和标签嵌入,并结合多头自注意力机制和相对位置嵌入来提取实体关系,从而降低计算成本并提高效率。研究人员分别在法国斯特拉斯堡大学医院新标注的法语临床记录语料库 (Corp-HUS) 和 2018 年 n2c2 共享任务的英语临床文档上进行了实验,结果表明,该架构在关系提取任务上的 F-measure 值与现有最优方法相当(法语0.82 vs 0.81,英语0.96 vs 0.95),但计算成本降低了 10 倍;端到端(命名实体识别和关系提取)的 F1 值在法语和英语语料库上分别为 0.69 和 0.82。该研究证明了所提出的架构能够以较低的计算成本高效地从临床文本中提取药物信息,适用于医院有限的 IT 资源环境。

13. MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation

期刊:arXiv

链接:https://arxiv.org/abs/2502.03004v1

简介:本文提出了一种名为 MedBioLM 的生物医学问答模型,该模型结合了微调和检索增强生成(RAG)技术,以优化大型语言模型在医学和生物领域问答中的表现。研究人员使用 GPT-4o 作为基础模型,并分别在 MedQA、PubMedQA、BioASQ、MedicationQA 和 LiveQA 等数据集上针对封闭式、长篇和短篇问答任务进行了微调和RAG实验,使用准确率、ROUGE、BLEU、BERTScore 和 BLEURT 等指标进行评估。实验结果表明,微调显着提高了封闭式问答任务的准确性,而 RAG 增强了短篇问答的性能;在长篇问答中,MedBioLM 在多个数据集上的综合表现最佳。该研究证明了领域特定微调和 RAG 方法相结合能够有效提升大型语言模型在生物医学问答领域的性能,但仍需进一步研究以解决 RAG 效果不一致以及模型过拟合等问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档