首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | GerNA-Bind整合多状态RNA-配体表示和相互作用,为RNA靶向药物发现提供了强大的工具

AI+Drug 文献速递 | GerNA-Bind整合多状态RNA-配体表示和相互作用,为RNA靶向药物发现提供了强大的工具

作者头像
MindDance
发布2026-01-08 12:41:29
发布2026-01-08 12:41:29
590
举报

1. GerNA-Bind: Geometric-enhanced RNA-ligand Binding Specificity Prediction with Deep Learning

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.02.15.638393v1

简介:本文介绍了GerNA-Bind,一种基于几何深度学习的框架,用于预测RNA-配体结合特异性,其创新点在于通过整合多状态RNA-配体表示和相互作用,显著提高了预测精度,并提供了内置的不确定性量化。该方法结合了1D RNA序列、2D RNA二级结构、3D RNA构象、2D分子图和3D分子构象,利用等变图变换器和图神经网络进行编码,并通过双注意力机制预测结合特异性。实验使用了Robin和Biosensor两个公开数据集进行验证,结果显示GerNA-Bind在多个基准数据集上表现优异,特别是在低同源性RNA-配体对的预测中,其结合位点预测精度比AlphaFold3提高了20.8%。总结而言,GerNA-Bind为RNA靶向药物发现提供了强大的工具,兼具准确性和生物学洞察力。

2. In silico generation of synthetic cancer genomes using generative AI

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2024.10.17.618896v2

简介:本文提出了一种名为OncoGAN的生成式AI工具,通过结合生成对抗网络(GAN)和表格变分自编码器(TVAE),生成逼真的合成癌症基因组,解决了癌症基因组数据稀缺和隐私保护的问题。该方法利用PCAWG数据集中的癌症基因组特征进行训练,生成的点突变、拷贝数变异和结构变异在多个常见癌症类型中表现出与真实数据相似的特征。实验结果表明,OncoGAN生成的合成基因组在DeepTumour工具中表现出与真实基因组高度一致的肿瘤类型预测准确性,并且通过结合真实和合成数据训练,进一步提高了DeepTumour的准确性。OncoGAN为癌症基因组分析工具的开发和测试提供了高质量的合成数据集,推动了精准肿瘤学的发展。

3. RNA-protein interaction prediction using network-guided deep learning

期刊:Communications Biology

链接:https://www.nature.com/articles/s42003-025-07694-9

简介:该论文提出了一种名为ZHMolGraph的深度学习模型,通过结合图神经网络和无监督大语言模型,显著提升了RNA-蛋白质相互作用(RPI)预测的准确性,特别是在处理未知RNA和蛋白质时表现突出。该方法利用RNA-FM和ProtTrans生成RNA和蛋白质的嵌入特征,并通过图神经网络整合网络信息,最终通过VecNN预测结合概率。实验在两个基准数据集(NPInter2和RPI7317)上进行了验证,ZHMolGraph在AUROC和AUPRC指标上分别达到了79.8%和82.0%,显著优于现有方法,并在SARS-CoV-2 RPI预测中表现出色。研究表明,ZHMolGraph在全基因组范围内的RNA-蛋白质相互作用预测和复杂结构预测中具有广泛的应用潜力。

4. CL-MFAP: A Contrastive Learning-Based Multimodal Foundation Model for Molecular Property Prediction and Antibiotic Screening

期刊:arXiv

链接:https://arxiv.org/abs/2502.11001

简介:本文提出了一种基于对比学习的多模态基础模型CL-MFAP,用于分子性质预测和抗生素筛选,创新点在于首次将双级路由注意力机制(BRA)引入分子图编码中,有效提升了分子表示学习的效果。该方法通过联合预训练三个编码器(处理SMILES字符串的Transformer编码器、处理分子图的双级路由注意力Transformer编码器以及处理Morgan指纹的多层感知机编码器),利用ChEMBL数据集中的160万生物活性分子进行对比学习。实验在多个下游任务数据集(如E. coli MIC、H. influenzae MIC、BBBP等)上进行,结果显示CL-MFAP在抗生素性质预测任务中表现优异,尤其在E. coli MIC数据集上取得了最高的ROC-AUC值(0.854±0.037)。总体而言,CL-MFAP通过多模态对比学习框架和BRA机制,显著提升了分子性质预测的准确性和泛化能力。

5. Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations

期刊:arXiv

链接:https://arxiv.org/abs/2306.01631

简介:本文提出了一种名为GODE的双层对比学习方法,通过整合分子图和知识图谱来增强分子表示,创新性地结合了分子结构和多领域生化数据。该方法通过预训练两个图神经网络(GNN)并在不同图结构上应用对比学习,有效地融合了分子结构及其对应的知识图谱子结构,从而生成更鲁棒且信息丰富的分子表示。实验在11个化学性质预测任务上进行,使用了MoleculeNet数据集,结果表明GODE在分类任务中平均ROC-AUC提高了12.7%,在回归任务中平均RMSE/MAE提高了34.4%,显著超越了现有基准模型。总结来说,GODE通过结合分子图和知识图谱,显著提升了分子性质预测的准确性。

6. Learning universal knowledge graph embedding for predicting biomedical pairwise interactions

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.02.10.637419v2

简介:本文提出了一种名为LukePi的自监督预训练框架,通过结合拓扑节点度分类和语义边恢复任务,提升了生物医学知识图谱(BKG)中节点表示的质量,从而显著提高了在低数据和分布偏移场景下的生物医学交互预测性能。LukePi利用异构图变换器(HGT)作为知识图谱编码器,通过预训练和微调策略,在合成致死性(SL)和药物-靶点相互作用(DTI)预测任务中表现优异。实验使用了PrimeKG作为预训练数据集,并在SynLethDB、LAML SL数据集、BindingDB和Wang's DTI数据集上进行了评估,结果表明LukePi在分布偏移和低数据场景下均优于15个基线模型。LukePi的成功展示了在生物医学知识图谱上进行预训练的有效性,特别是在标签数据稀缺的情况下。

7. Identifying a logical specification and a program for an LLM-based generator of lead molecules

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.02.14.634875v1

简介:本文提出了一种结合归纳逻辑编程(ILP)和大语言模型(LLM)的方法,用于在早期药物设计中生成符合物理化学约束的“先导”分子,创新点在于通过逻辑规范确保生成的分子满足多种约束条件。方法上,首先使用ILP技术从数据中自动构建逻辑规范,然后利用LLM生成符合该规范的分子,并通过迭代优化确保生成的分子具有高亲和力和可合成性。实验部分,作者在JAK2、DRD2和DBH三个靶点蛋白上验证了该方法,使用了ChEMBL数据库中的分子数据,结果表明生成的分子在亲和力和新颖性上优于现有方法,特别是针对DBH靶点的“开箱”探索生成了结构新颖且易于合成的分子。总结而言,该方法通过神经符号结合的方式,显著提升了早期药物设计中的分子生成效率和效果。

8. MING: A Functional Approach to Learning Molecular Generative Models

期刊:arXiv

链接:https://arxiv.org/abs/2410.12522

简介:本文提出了一种基于函数空间的新型分子生成模型MING,通过引入隐式神经表示(INR)和扩散模型,实现了在函数空间中对分子分布的学习和生成,克服了传统序列或图表示方法的局限性。MING采用了一种新颖的函数去噪概率过程,通过期望最大化算法对隐式神经表示进行联合去噪,简化了模型设计并提高了生成效率。实验在QM9、ZINC250k和MOSES三个分子数据集上进行,结果表明MING在生成化学有效分子、唯一性和新颖性方面均优于现有方法,同时在化学和结构相似性指标上表现出色。MING通过函数空间表示,显著减少了扩散步骤,提升了生成速度,为分子生成任务提供了一种高效且灵活的解决方案。

9. Reinforced molecular dynamics: Physics-infused generative machine learning model explores CRBN activation process

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.02.12.638002v1

简介:本文提出了一种基于机器学习的强化分子动力学(rMD)技术,通过结合分子动力学(MD)轨迹数据和自由能(FE)图数据,训练双损失函数的自编码器网络,以更高效地探索蛋白质构象空间,创新点在于用自由能图替代传统的潜在空间,赋予自编码器物理背景。实验使用了两组1微秒长的meta-eABF模拟数据,生成三维自由能图,并通过自编码器网络预测CRBN蛋白的开放-闭合构象转变,结果显示网络预测的结构平均重原子RMSD约为1.6Å。该方法为蛋白质构象探索提供了新的工具,有助于深入理解生物相关结构转变。

10. Knowledge-aware contrastive heterogeneous molecular graph learning

期刊:arXiv

链接:https://arxiv.org/abs/2502.11711

简介:本文提出了一种名为KCHML(Knowledge-aware Contrastive Heterogeneous Molecular Graph Learning)的新框架,通过将分子图编码为异质结构,结合对比学习,显著提升了分子属性预测和药物-药物相互作用(DDI)预测的准确性。该方法采用分子、元素和药物三个视角的异质分子图,并引入双消息传递机制,全面捕捉分子的多层次特征。实验在MoleculeNet的13个基准数据集和TwoSide数据集上进行,结果表明KCHML在分类和回归任务中均优于现有最先进的模型,特别是在DDI预测任务中表现尤为突出。该研究为分子表示学习提供了新的思路,显著提升了药物发现的效率和准确性。

11. Can LLMs Generate Diverse Molecules? Towards Alignment with Structural Diversity

期刊:arXiv

链接:https://arxiv.org/abs/2410.03138

简介:本文提出了一种通过微调大语言模型(LLMs)来生成结构多样性分子的新方法,创新点在于首次探索了LLMs在生成多样性分子中的应用,并通过两阶段微调(监督学习和强化学习)显著提升了分子生成的多样性。方法上,首先通过监督学习使LLMs能够自回归生成分子序列,然后通过强化学习最大化生成分子之间的结构多样性。实验使用了L+M-24和ChEBI-20数据集,结果表明该方法在生成多样性分子方面优于现有的解码策略和其他LLMs。总结来说,该方法为LLM驱动的药物发现提供了新的方向,显著提升了分子生成的多样性和质量。

12. On inputs to deep learning for RNA 3D structure prediction

期刊:bioRxiv

链接:https://www.biorxiv.org/content/10.1101/2025.02.14.638364v1

简介:本文探讨了深度学习在RNA三维结构预测中的应用,创新性地提出了针对RNA特性的结构比对、进化特征和损失函数设计。作者通过Rfam数据库生成结构多序列比对(MSA),并利用Infernal方法提取进化特征,同时从晶体结构中提取RNA碱基配对的结构特征,提出了pairtogram损失和基于二面角的BBAE损失,并讨论了基于RNA结构的裁剪策略。实验使用了RNA3DB数据集,结果表明这些方法在RNA结构预测中显著提高了准确性。总结而言,本文为RNA三维结构预测提供了新的思路和方法,有望推动该领域的进一步发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档