首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | YuelBond,一个基于图神经网络的多场景化学键重建通用框架

AI+Drug 文献速递 | YuelBond,一个基于图神经网络的多场景化学键重建通用框架

作者头像
用户1151118
发布2026-01-08 12:46:58
发布2026-01-08 12:46:58
620
举报

1. Multimodal Bonds Reconstruction Towards Generative Molecular Design

期刊: biorxiv 链接: https://doi.org/10.1101/2025.05.06.652517 代码: https://bitbucket.org/dokhlab/yuel_bond

简介: 论文提出YuelBond多模态图神经网络框架,用于解决生成分子设计中化学键重建的难题,创新点在于能在多种复杂场景下准确重建化学键。该框架基于图神经网络,以原子为节点、化学键为边,通过特定的消息传递机制学习和预测键序。实验使用GEOM数据集,在三种场景下对模型进行训练和评估:从准确3D原子坐标恢复键序、在有几何扰动的粗新生化合物中重建化学键、对2D拓扑图重新分配键序。结果显示,YuelBond在各场景下均表现出色,在标准3D结构上F1分数达98.4%,在扭曲的粗新生化合物上F1分数为92.7%,远超传统方法RDKit。该研究为生成药物发现流程提供了关键支持,提升了分子设计的可靠性。


2. SimSon: Simple Contrastive Learning of SMILES for Molecular Property Prediction

期刊: Bioinformatics 链接: https://doi.org/10.1093/bioinformatics/btaf275 代码: https://github.com/lee00206/SimSon

简介: 文章提出SimSon自监督框架,通过对比学习获取SMILES表示,能有效捕捉分子全局语义,在分子性质预测中表现出色。该框架利用SMILES枚举技术扩充数据,经字节对编码和零填充后,输入含2层和8个注意力头的Transformer编码器,采用NT-Xent损失函数进行对比学习。实验在MoleculeNet的11个基准数据集上开展,主要与其他自监督学习模型对比。结果显示,SimSon在7个任务中表现最佳,在多数数据集上性能优于基于图的方法,且对非规范SMILES表示更具鲁棒性。此研究为分子性质预测提供了高效的基于SMILES的学习方法。


3. Machine Learning-based QSAR Modeling of α-Amylase Inhibitors as Potential Antidiabetic Agents

期刊: preprint 链接: https://doi.org/10.20944/preprints202504.1159.v1

简介: 该论文运用机器学习构建定量构效关系(QSAR)模型,筛选α-淀粉酶抑制剂作为潜在抗糖尿病药物,其创新点在于利用遗传算法优化模型。研究收集130个α-淀粉酶抑制剂的临床前检测数据,经数据整理、结构转换和几何优化后,用alvaDesc软件计算分子描述符,再经筛选用于构建模型。通过留一法交叉验证、Y-打乱测试等方法验证模型,使用Williams图确定适用性域。数据集来自ChEMBL数据库。结果显示,构建的模型对训练集和测试集的R²分别达0.888和0.889,能有效预测抑制剂活性。该研究表明此方法有助于发现新型抗糖尿病药物。


4. SPIN-ODE: Stiff Physics-Informed Neural ODE for Chemical Reaction Rate Estimation

期刊: arxiv 链接: https://arxiv.org/abs/2505.05625v1 代码: https://github.com/pvvq/SPIN-ODE

简介: 论文提出SPIN-ODE框架用于化学反应速率估计,创新点在于引入三阶段优化过程处理刚性问题并提升训练稳定性。该框架先利用潜在神经ODE学习化学浓度与时间导数间的关系,再用化学反应神经网络提取速率系数,最后结合ODE求解器微调。实验使用Robertson问题、POLLU和AOXID数据集,数据通过特定数值求解器生成。结果表明,SPIN-ODE在ODE轨迹拟合和速率系数估计上优于对比模型,如在AOXID数据集上,最终结果的速率系数估计误差低至4.5×10⁻⁶,且对稀疏数据具有鲁棒性。该研究为化学反应速率估计提供了新方法,推动了神经网络与详细化学的结合。


5. EquiHGNN: Scalable Rotationally Equivariant Hypergraph Neural Networks

期刊: arxiv 链接: https://arxiv.org/abs/2505.05650v1 代码: https://github.com/HySonLab/EquiHGNN/

简介: 本文提出EquiHGNN框架用于分子建模,创新点是将对称性感知表示集成到超图神经网络中,以捕捉高阶相互作用和几何一致性。该框架基于AllSet框架,通过用对称性感知几何表示和不变标量信息初始化节点特征来实现。实验使用QM9、OPV、PCQM4Mv2和Molecule3D数据集,训练模型400个epoch,用Adam优化器。结果显示,在小数据集QM9和OPV上,结合几何信息的模型能显著提升性能;在大规模数据集PCQM4Mv2和Molecule3D上,EquiHGNN也取得了有竞争力的结果。该研究表明超图在大分子建模上的优势,为分子建模提供了新的有效方法。


6. A 3D Pocket-Aware and Evolutionary Conserved Interaction Guided Diffusion Model for Molecular Optimization

期刊: arxiv 链接: https://arxiv.org/abs/2505.05874v1

简介: 文章提出3D目标感知扩散模型DiffDecip,通过引入蛋白质-配体结合相互作用和蛋白质残基进化保守信息,改进分子优化效果。模型基于DiffDec,增加了 Conservation-Aware Condition和Interaction-Prior Guidance两种机制。实验基于CrossDocked数据集,采用特定筛选和分割方法构建数据。将DiffDecip与DiffDec对比,评估指标包括有效性、唯一性、Vina评分等。结果显示,DiffDecip在结合相关指标上表现更优,生成分子与高度保守残基形成更多相互作用,提升了结合亲和力。该研究为基于结构的药物设计和分子优化提供了更有效的模型。


7. scDrugMap: Benchmarking Large Foundation Models for Drug Response Prediction

期刊: arxiv 链接: https://arxiv.org/abs/2505.05612v1 代码: https://github.com/QSong-github/scDrugMap

简介: 论文开发了scDrugMap框架用于药物反应预测,创新点在于全面评估多种基础模型在单细胞数据药物反应预测中的表现,并提供易用的工具和平台。该框架整合了计算流程、交互式网络服务器和大规模整理的药物相关数据集,支持多种基础模型及零样本推理和微调训练策略。实验使用包含326,751个细胞的主要数据集和18,856个细胞的验证数据集,涵盖多种癌症类型、组织类型和治疗方案。结果表明,不同模型在不同场景下各有优劣,如scFoundation在汇总数据评估中表现最佳,UCE在跨数据评估微调后表现优异。该研究为模型选择提供了指导,推动了单细胞药物反应研究。


8. LEVERAGING LARGE LANGUAGE MODELS FOR ENZYMATIC REACTION PREDICTION AND CHARACTERIZATION

期刊: arxiv 链接: https://arxiv.org/abs/2505.05616v1 代码: https://github.com/Intelligent-molecular-systems/LLM_finetuning_for_biochemistry

简介: 文章旨在评估大语言模型(LLMs)在酶促反应预测和表征方面的能力,创新点是系统研究多任务学习和不同数据处理方式对模型性能的影响。研究人员选择Llama 3.1家族的8B和70B模型,通过上下文学习和基于LoRA的微调方法,在酶委员会编号预测、正向合成和逆合成三个任务上进行实验。实验采用ECREACT数据集中的BRENDA部分数据,经预处理后进行70-30的训练测试划分。结果显示,微调后的模型能捕捉生化知识,多任务学习提升了正向和逆合成预测性能,在低数据场景下也有潜力,但模型在处理罕见EC子类时存在局限。该研究为LLMs在生化领域的应用提供了参考。


9. MetagenBERT: a Transformer Architecture using Foundational DNA Read Embedding Models to enhance Disease Classification

期刊: biorxiv 链接: https://doi.org/10.1101/2025.05.06.652444 代码: https://github.com/CorvusVaine/MetagenBERT

简介: 论文提出MetagenBERT框架,利用基于Transformer的架构和DNA读取嵌入模型提升疾病分类能力,创新点在于采用无分类学依赖的方式编码肠道微生物组宏基因组。该框架先使用DNABERT-2和DNABERT-S对DNA测序读取进行嵌入,再通过简单聚合、聚类等方法处理得到的嵌入信息,最后用于疾病分类。实验使用两个宏基因组数据集,涵盖肝硬化和2型糖尿病相关样本。结果显示,在肝硬化预测任务上,MetagenBERT与基于丰度的先进模型性能相近,在2型糖尿病预测上更具优势;且聚类方法能有效捕捉微生物组动态信息,为疾病分类提供新视角。该研究为宏基因组数据分析和疾病预测提供了新的有效途径。


10. Design of overlapping genes using deep generative models of protein sequences

期刊: biorxiv 链接: https://doi.org/10.1101/2025.05.06.652464 代码: https://github.com/gwbyeon/olgdesign (应该还未上传)

简介: 文章利用深度生成模型设计重叠基因,创新点是开发了一种计算算法,能在重叠密码子约束下将两个目标蛋白质编码到同一DNA序列中。研究人员通过迭代采样程序,从生成模型中同时采样两个蛋白质序列,并确保其在交替阅读框中的兼容性。实验中,针对不同目标设计重叠基因序列,如以细菌基因和特定蛋白质结构为目标进行设计,并通过多种指标评估设计序列的质量。结果表明,设计的序列在结构和功能上具有可行性,实验验证成功率较高。该研究为合成生物学和基因工程中重叠基因的设计提供了理论和实践依据,推动了相关领域的发展。


11. Multi-Modal Molecular Representation Learning via Structure Awareness

期刊: arxiv 链接: https://arxiv.org/abs/2505.05877v1

简介: 本文提出基于结构感知的多模态自监督分子表征预训练框架MMSA,以增强分子图表示,其创新点在于引入超图结构和记忆机制。该框架包含多模态分子表征学习和结构感知两个模块,前者融合多模态信息生成统一分子嵌入,后者构建超图捕捉高阶相关性并利用记忆机制整合不变知识。实验在Drugs数据集上预训练,在MoleculeNet基准的多个下游任务中评估,包括分类、回归和检索。结果表明,MMSA在多数任务上性能领先,如在分类任务中平均ROC-AUC比基准方法提升1.8%-9.6%。该研究为分子表征学习提供了有效方法,推动了药物发现等相关领域发展。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Multimodal Bonds Reconstruction Towards Generative Molecular Design
  • 2. SimSon: Simple Contrastive Learning of SMILES for Molecular Property Prediction
  • 3. Machine Learning-based QSAR Modeling of α-Amylase Inhibitors as Potential Antidiabetic Agents
  • 4. SPIN-ODE: Stiff Physics-Informed Neural ODE for Chemical Reaction Rate Estimation
  • 5. EquiHGNN: Scalable Rotationally Equivariant Hypergraph Neural Networks
  • 6. A 3D Pocket-Aware and Evolutionary Conserved Interaction Guided Diffusion Model for Molecular Optimization
  • 7. scDrugMap: Benchmarking Large Foundation Models for Drug Response Prediction
  • 8. LEVERAGING LARGE LANGUAGE MODELS FOR ENZYMATIC REACTION PREDICTION AND CHARACTERIZATION
  • 9. MetagenBERT: a Transformer Architecture using Foundational DNA Read Embedding Models to enhance Disease Classification
  • 10. Design of overlapping genes using deep generative models of protein sequences
  • 11. Multi-Modal Molecular Representation Learning via Structure Awareness
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档