
1. LIDDIA: Language-based Intelligent Drug Discovery Agent
期刊:arXiv
链接:https://arxiv.org/abs/2502.13959
简介:本文介绍了LIDDIA,一种基于大型语言模型的智能药物发现代理,能够自主导航药物发现过程,显著提高药物发现的效率和成功率。LIDDIA通过整合四个核心组件(REASONER、EXECUTOR、EVALUATOR和MEMORY),利用生成式AI工具进行分子设计,能够在化学空间中智能地平衡探索与开发。实验在30个临床相关靶点上进行,结果显示LIDDIA在70%以上的靶点上生成了符合关键药物标准的分子,并在EGFR靶点上识别出有潜力的新药候选物。实验使用了OpenTargets和RCSB Protein Data Bank的数据集,结果表明LIDDIA在生成高质量、多样性和新颖性分子方面优于现有方法。LIDDIA代表了低成本、高效率自主药物发现的创新尝试,具有广泛的应用前景。
2. K-Paths: Reasoning over Graph Paths for Drug Repurposing and Drug Interaction Prediction
期刊:arXiv
链接:https://arxiv.org/abs/2502.13344
简介:本文提出了一种名为K-Paths的检索框架,通过从大规模生物医学知识图谱中提取结构化和多样化的路径,显著提升了大型语言模型(LLMs)和图神经网络(GNNs)在药物重定位和药物相互作用预测中的性能。K-Paths采用了一种基于Yen算法的多样性路径检索方法,将路径转化为自然语言格式,使LLMs能够直接处理并进行可解释的推理。实验在DDInter、PharmacotherapyDB和DrugBank数据集上进行,结果表明,K-Paths在零样本设置下显著提升了Llama 8.1B和70B模型的F1分数,并在监督学习环境中减少了90%的知识图谱规模,同时保持了强大的预测性能。该框架有效填补了知识图谱与大型语言模型之间的鸿沟,为数据驱动的药物发现提供了高效且可解释的工具。
3. GeLLM3O: Generalizing Large Language Models for Multi-property Molecule Optimization
期刊:arXiv
链接:https://arxiv.org/abs/2502.13398
简介:本文提出了GeLLM3O模型,通过MuMOInstruct数据集进行指令微调,首次实现了多属性分子优化的通用化大语言模型。方法上,作者开发了MuMOInstruct数据集,专注于复杂多属性优化任务,并基于此数据集对通用大语言模型进行指令微调,生成了GeLLM3O系列模型。实验在5个领域内任务和5个领域外任务上进行了广泛评估,结果表明GeLLM3O在多个任务上显著优于现有基线模型,尤其是在零样本泛化能力上表现突出。总结来说,GeLLM3O展示了作为分子优化基础模型的巨大潜力,能够在不进行资源密集型再训练的情况下应对新的优化任务。
4. The impact of conformer quality on learned representations of molecular conformer ensembles
期刊:arXiv
链接:https://arxiv.org/abs/2502.13220
简介:本文探讨了分子构象质量对机器学习模型预测分子构象集合性质的影响,创新点在于系统分析了不同质量构象对模型性能的影响,并提出了使用低成本构象集合直接计算性质的替代策略。研究方法包括使用3D图神经网络(DimeNet++)编码不同优化水平的构象,并训练模型预测DFT优化构象集合的Sterimol参数。实验使用了Haas等人引入的羧酸构象集合数据集,结果表明,使用低成本构象集合直接计算性质比训练机器学习模型更为经济和准确,且编码随机构象时构象质量对模型性能影响不大。总结而言,本文为分子构象集合性质预测提供了新的视角,强调了构象质量在机器学习模型中的重要性。
5. Democratizing Large Language Model-Based Graph Data Augmentation via Latent Knowledge Graphs
期刊:arXiv
链接:https://arxiv.org/abs/2502.13555
简介:本文提出了一种基于大语言模型(LLM)的黑箱图数据增强方法DemoGraph,通过生成知识图谱(KG)来增强图表示学习,解决了现有方法忽略上下文信息且难以普及的问题。该方法利用文本提示生成KG,并通过动态合并策略将生成的KG与原始图数据结合,同时设计了粒度感知的提示策略和指令微调模块来控制增强图的稀疏性。实验在多个图学习任务(如Cora、PPI、Actor、Citeseer等数据集)和电子健康记录(EHR)数据集MIMIC-III上进行,结果表明DemoGraph在预测性能和可解释性上优于现有方法,尤其在EHR场景中表现出色。本文的方法为图数据增强提供了一种高效且可扩展的解决方案。
6. Flow-based generative models as iterative algorithms in probability space
期刊:arXiv
链接:https://arxiv.org/abs/2502.13394
简介:本文提出了一种基于流的生成模型框架,通过将流模型视为概率空间中的迭代算法,结合常微分方程(ODE)和最优传输技术,实现了精确的密度估计和高效采样。方法上,文章详细介绍了连续时间归一化流(CNF)、流匹配(FM)以及基于Jordan-Kinderlehrer-Otto(JKO)方案的迭代训练,并通过Wasserstein梯度流理论证明了模型的收敛性。实验部分,作者在ImageNet-32数据集上进行了图像生成实验,展示了JKO-flow模型在生成高质量图像方面的优越性,并通过负对数似然(NLL)和Fréchet Inception Distance(FID)等指标评估了模型性能。总结而言,本文为流生成模型提供了坚实的理论基础和实用的算法框架,推动了其在信号处理和机器学习中的应用。
7. Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model
期刊:arXiv
链接:https://arxiv.org/abs/2502.13449
简介:本文提出了一种名为Mol-LLaMA的大规模分子语言模型,旨在通过多模态指令微调实现对分子结构和特性的全面理解,创新点在于设计了涵盖分子基本特征的数据集并引入2D和3D编码器融合模块以增强分子结构理解。方法上,Mol-LLaMA通过构建包含详细结构描述、结构-特征关系解释和综合对话的指令数据集,结合2D和3D分子编码器的互补信息,提升了对分子特征的理解能力。实验部分,作者在PubChem数据集上进行了验证,结果表明Mol-LLaMA在分子特征解释和分子属性预测任务上均优于基线模型,特别是在零样本设置下表现出色。总结而言,Mol-LLaMA通过多模态指令微调和结构信息融合,展示了其作为通用分子分析助手的潜力。
8. Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics
期刊:arXiv
链接:https://arxiv.org/abs/2502.13785
简介:本文介绍了Helix-mRNA,一种结合状态空间模型和注意力机制的混合基础模型,用于优化mRNA疫苗和治疗的全序列设计,创新点在于其能够处理长序列并保留单核苷酸和密码子结构信息。方法上,采用了两阶段预训练策略,结合单核苷酸和密码子编码,实现了对mRNA序列的高效分析。实验使用了包含27百万条序列的RefSeq数据集,涵盖了多种真核生物和病毒,结果显示Helix-mRNA在翻译效率、稳定性和降解预测等任务上优于现有模型。总结而言,Helix-mRNA为mRNA治疗和疫苗设计提供了更强大和灵活的工具。