首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | MFERL:基于多尺度特征学习的 circRNA-miRNA 相互作用预测新方法

AI+Drug 文献速递 | MFERL:基于多尺度特征学习的 circRNA-miRNA 相互作用预测新方法

作者头像
用户1151118
发布2026-01-08 12:47:06
发布2026-01-08 12:47:06
850
举报

1. Leveraging explainable multi-scale features for fine-grained circRNA-miRNA interaction prediction

期刊: BMC Biology 链接: https://doi.org/10.1186/s12915-025-02227-6 代码: https://doi.org/10.5281/zenodo.15265950 https://github.com/biohnuster/MFERL

简介: 该论文提出一种新方法MFERL,通过多尺度表示学习和可解释的细粒度模型预测circRNA-miRNA相互作用,改善了现有方法在特征信息考虑不足、信息聚合等方面的问题。MFERL从不同细粒度序列维度提取RNA多特征表示,进行同质信息聚合和异质信息交互学习,并利用对比学习优化特征向量。研究使用三个数据集进行实验,将已知的circRNA-miRNA相互作用作为正样本,未验证的作为负样本,通过5折交叉验证评估模型性能。结果显示,MFERL在多个评估指标上优于其他先进模型,具有较强的泛化能力和可解释性。该研究为circRNA-miRNA相互作用预测提供了新方向。


2. Aitomia: Your Intelligent Assistant for AI-Driven Atomistic and Quantum Chemical Simulations

期刊: ChemRxiv 链接: https://doi.org/10.26434/chemrxiv-2025-gnf13

简介: 论文介绍了Aitomia平台,它借助AI助力原子和量子化学模拟,降低模拟门槛,加速相关领域研究。Aitomia利用微调的开源大语言模型、基于规则的智能体和检索增强生成系统,为用户提供模拟各阶段的帮助。在方法上,选择Qwen和蒸馏的DeepSeek模型并进行微调,利用MLatom生态系统支持多种计算任务。研究通过实例测试Aitomia在提供背景信息、协助计算工作流程等方面的能力。结果表明,Aitomia能较好地回答专业问题、辅助分子几何优化等任务,且在部分功能上已公开可用。Aitomia为化学模拟研究提供了便利的智能辅助工具。


3. A Survey of Molecular Representation Learning: From Single Modalities to Foundation Models

期刊: ChemRxiv 链接: https://doi.org/10.26434/chemrxiv-2025-vxsvs

简介: 该综述全面介绍分子表示学习(MRL),从单模态到多模态,再到化学基础模型,阐述其发展历程与研究进展。MRL旨在用机器学习表示替代传统手工分子描述符,通过数据预处理、编码、学习等流程完成任务。单模态方法包括基于字符串、图和图像的表示学习,各有优劣;多模态方法则通过对齐、翻译和融合策略整合多种数据模态,提升模型性能。化学基础模型是新趋势,需满足数据多样、自监督学习、高容量和多模态集成等标准。文中列举了多个相关模型及其实验成果。该综述为MRL研究提供了系统的参考,明确了未来发展方向。


4. Piloting Structure-Based Drug Design via Modality-Specific Optimal Schedule

期刊: arxiv 链接: https://arxiv.org/abs/2505.07286v1

简介: 该论文提出基于变分下界最优调度(VOS)的方法用于基于结构的药物设计(SBDD),解决现有模型在分子几何结构建模中的挑战,通过优化变分下界提升模型性能。研究建立理论联系,将噪声调度与变分下界关联,设计空间并搜索最优调度。实验采用CrossDock和PoseBusters数据集,对比多种基线模型。结果显示,该方法在分子几何结构和相互作用建模上效果显著,MolPilot在CrossDock上PoseBusters通过率达95.9% ,优于基线模型。该研究为SBDD提供了新的有效方法,推动药物发现领域的发展。


5. Benchmarking Retrieval-Augmented Generation for Chemistry

期刊: arxiv 链接: https://arxiv.org/abs/2505.07671v1 代码: https://chemrag.github.io

简介: 论文提出CHEMRAG-BENCH和CHEMRAG-TOOLKIT,用于系统评估化学领域检索增强生成(RAG)系统,解决该领域缺乏高质量评估基准和资源的问题。CHEMRAG-BENCH包含1932个专家策划的问答对,CHEMRAG-TOOLKIT集成多种检索算法和大语言模型。实验使用多个数据集,涵盖多种化学任务。结果表明,RAG能显著提升模型性能,平均相对改进17.4%,不同任务对语料库和检索器有不同偏好。该研究为化学领域RAG系统的研究和部署提供了重要参考。


6. Assessing the Chemical Intelligence of Large Language Models

期刊: arxiv 链接: https://arxiv.org/abs/2505.07735v1 代码: https://github.com/oxpig/ChemIQ

简介: 文章构建了ChemIQ基准测试,评估推理模型在化学任务上的能力,发现最新推理模型具备直接解决高级化学问题的能力。研究设计796个问题,涵盖分子理解和化学推理等任务,以o3-mini等模型为对象进行实验。结果显示,o3-mini在不同推理水平下能正确回答28%-59%的问题,在多个任务上表现出色,如将SMILES字符串转换为IUPAC名称、解析NMR数据等,且推理过程类似人类化学家。该研究表明推理模型在化学领域取得重要进展,但仍有提升空间。


7. Causal knowledge graph analysis identifies adverse drug effects

期刊: arxiv 链接: https://arxiv.org/abs/2505.06949v1 代码: https://github.com/bio-ontology-research-group/Mediation-Analysis-using-Causal-Knowledge-Graph

简介: 该论文提出因果知识图谱(CKG),将知识图谱与结构因果模型相结合,用于识别药物不良反应,解决了传统方法在整合知识和因果推理方面的不足。研究构建了药物-疾病CKG,整合多种数据,通过生成假设、样本选择、控制混杂因素等步骤进行因果中介分析。实验使用UK Biobank和MIMIC-IV队列数据,结果表明该方法能有效识别已知和新的药物不良反应,且通过副作用相似性分析验证了新发现的临床相关性。该研究为药物安全监测提供了新的知识驱动框架,有助于发现潜在的药物不良反应。


8. Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

期刊: arxiv 链接: https://arxiv.org/abs/2505.07086v1 代码: https://huggingface.co/ChatterjeeLab/MOG-DFM

简介: 文章提出多目标引导离散流匹配(MOG-DFM)框架,用于可控的生物序列设计,解决现有方法在多目标优化方面的局限。该框架通过多目标引导和自适应超锥过滤,引导预训练的离散流匹配模型生成帕累托最优解。研究训练了PepDFM和EnhancerDFM两个基础模型,并在多个生物序列生成任务中进行实验。结果显示,MOG-DFM在平衡多个目标方面表现出色,生成的肽结合剂和增强子DNA序列在多种属性上得到优化,且优于传统多目标优化算法。该研究为生物分子序列设计提供了有效的多目标优化方法。


9. TurbOmics: a web-based platform for the analysis of metabolomics data using a multi-omics integrative approach

期刊: biorxiv 链接: https://doi.org/10.1101/2025.05.09.653072 代码: https://github.com/CNIC-Proteomics/TurboPutative-web https://github.com/CNIC-Proteomics/TurboOmics

简介: 论文介绍了TurbOmics平台,这是一个基于网络的多组学整合分析代谢组学数据的平台,旨在解决现有工具在处理代谢组学数据时的不足。该平台支持多种组学数据上传与预处理,提供探索性数据分析、多组学因子分析等功能模块。在动脉粥样硬化和COVID-19研究的案例中,分别使用相关的组学数据集进行分析。结果表明,TurbOmics能有效整合和分析数据,挖掘潜在生物信息,且操作简便。该平台为多组学研究提供了便利的工具,推动了代谢组学数据的分析。


10. GeoFlow-V2: A Unified Atomic Diffusion Model for Protein Structure Prediction and De Novo Design

期刊: biorxiv 链接: https://doi.org/10.1101/2025.05.06.652551

简介: 论文提出GeoFlow-V2统一原子扩散模型,可跨多种生物模态进行蛋白质结构预测和从头设计,创新地统一架构,支持多种约束,性能优异且易用。该模型基于AlphaFold 3架构改进,引入伪蛋白序列等创新点,能处理不同输入状态。实验在多个任务中展开,使用多种数据集。在抗体-抗原结构预测中,其在低同源数据集上超越其他方法;在蛋白质-配体结构预测中,成功率达77%;设计的轻量版模型在抗体结构预测上比AlphaFold Multimer V2.3快150-250倍且精度相当。在从头抗体设计方面,也表现出良好的结构生成、区分结合物和虚拟筛选能力。该研究为蛋白质结构研究和设计提供了新的有效工具。


11. LLM-Augmented Chemical Synthesis and Design Decision Programs

期刊: arxiv 链接: https://arxiv.org/abs/2505.07027v1

简介: 文章探索大语言模型(LLMs)在化学合成和设计决策中的应用,提出新的编码和搜索策略,改进传统方法局限。研究将LLMs用于逆合成规划和可合成分子设计,提出用序列格式表示反应路线,以LLMs作为单步预测模型或合成路径采样器,并引入进化搜索算法。实验使用USPTO和Pistachio等数据集,对比多种传统模型。结果显示,LLM-Syn-Planner在逆合成规划任务中表现出色,能达到甚至超越一些单步模型引导的搜索;在可合成分子设计中,该方法平衡了优化效率和可合成性。研究表明LLMs在化学合成和设计决策中有应用潜力,为相关领域提供了新的研究思路。


12. Bridging 3D Molecular Structures and Artificial Intelligence by a Conformation Description Language

期刊: biorxiv 链接: https://doi.org/10.1101/2025.05.07.652440

简介: 论文提出ConfSeq分子构象描述语言,解决化学语言模型在3D分子建模中的难题,实现从2D到3D分子建模的拓展。该语言整合SMILES和内部坐标,保持SE(3)不变性,将3D分子建模任务转化为序列问题,使用标准Transformer架构求解。实验采用多个数据集,在分子构象预测、3D分子生成和3D分子表示学习等任务中评估。结果表明,在构象预测上,其精度优于基线方法;在3D分子生成任务中,生成的分子在2D和3D评估中有效性高,与训练集一致性好;在表示学习任务中,能有效捕捉分子3D相似性,虚拟筛选性能出色。该研究为3D分子建模提供了新的基础工具。


13. Optimizing Blood-Brain Barrier Permeability in KRAS Inhibitors: A Structure-Constrained Molecular Generation Approach

期刊: Journal of Pharmaceutical Analysis 链接: https://doi.org/10.1016/j.jpha.2025.101337 代码: https://github.com/myzhengSIMM/BBBP-KRAS

简介: 该研究提出一种结构约束分子生成工作流程,用于优化KRAS抑制剂的血脑屏障(BBB)通透性,创新点在于结合变分自动编码器(VAE)与强化学习进行多目标优化,并引入新指标评估模型性能。研究运用对比学习预训练VAE编码器,利用基于主动学习的BBB通透性预测模型、基于比较学习的亲和力预测模型等进行多目标优化。实验使用ChEMBL数据库中的2126个KRAS活性分子、1937个BBB通透性相关分子等多个数据集。结果显示,该模型在多样性、新颖性和相似性等指标上优于其他模型,能有效优化BBB通透性和KRAS结合亲和力。该研究为加速先导化合物结构优化、推进药物研发提供了有力框架。


14. Learning Biophysical Dynamics with Protein Language Models

期刊: bioRxiv 链接: https://doi.org/10.1101/2024.10.11.617911 代码: https://github.com/ShenLab/SeqDance 数据: https://huggingface.co/datasets/ChaoHou/protein_dynamic_properties

简介: 论文提出SeqDance和ESMDance两种蛋白质语言模型,通过整合蛋白质动力学属性,在预测蛋白质行为和突变效应上取得进展,创新地将分子动力学模拟和正常模式分析数据融入模型训练。研究收集高、低分辨率蛋白质动力学数据,提取相关属性后,分别对SeqDance(从头训练)和ESMDance(基于ESM2构建)进行预训练。实验使用来自mdCATH、ATLAS等多个数据源的蛋白质动态数据集。结果表明,SeqDance能捕捉动态相互作用和全局构象属性,预测突变对蛋白质稳定性的影响;ESMDance在预测设计和病毒蛋白的突变效应上表现出色。该研究为理解蛋白质行为和突变效应提供新视角,助力计算蛋白质设计与研究。


15. Accelerating Antibody Discovery and Optimization with High‑throughput Experimentation and Machine Learning

期刊: Journal of Biomedical Science 链接: https://doi.org/10.1186/s12929-025-01141-x

简介: 本文聚焦于高通量实验和机器学习整合加速抗体发现与优化,利用大量抗体数据训练模型以实现理性设计,突破传统抗体开发局限。研究采用多种高通量实验技术获取数据,如新一代测序、展示技术等,结合从序列和结构中提取特征的方法,训练机器学习模型。实验使用多种技术手段对不同抗体库进行筛选、分析和验证,涉及的数据集涵盖多种抗体序列、结构及结合测定数据。结果表明,该整合方法在亲和力成熟、优化抗体特异性、稳定性等方面效果显著。总之,该研究推动了数据驱动的抗体工程发展,为抗体药物研发提供了高效框架。


16. Integrating Machine Learning-Based Pose Sampling with Established Scoring Functions for Virtual Screening

期刊: Journal of Chemical Information and Modeling 链接: https://doi.org/10.1021/acs.jcim.5c00380 代码: https://github.com/lan-codes/Benchmark_VS

简介: 该论文探索将基于机器学习的DiffDock-L构象采样方法与传统评分函数结合用于虚拟筛选,评估其性能并与传统方法对比。研究以DUDE-Z为基准数据集,分别用DiffDock-L和AutoDock Vina进行构象采样,结合Vina、Gnina和RTMScore评分函数,通过计算AUC、BEDROC分数和EF1%等指标评估虚拟筛选性能,还用PoseBusters和PLIF分析构象的有效性和相互作用模式。实验结果显示,DiffDock-L在虚拟筛选性能和构象采样方面与传统方法相当,评分函数对筛选成功影响重大。该研究为虚拟筛选提供了新的方法组合和思路。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Leveraging explainable multi-scale features for fine-grained circRNA-miRNA interaction prediction
  • 2. Aitomia: Your Intelligent Assistant for AI-Driven Atomistic and Quantum Chemical Simulations
  • 3. A Survey of Molecular Representation Learning: From Single Modalities to Foundation Models
  • 4. Piloting Structure-Based Drug Design via Modality-Specific Optimal Schedule
  • 5. Benchmarking Retrieval-Augmented Generation for Chemistry
  • 6. Assessing the Chemical Intelligence of Large Language Models
  • 7. Causal knowledge graph analysis identifies adverse drug effects
  • 8. Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design
  • 9. TurbOmics: a web-based platform for the analysis of metabolomics data using a multi-omics integrative approach
  • 10. GeoFlow-V2: A Unified Atomic Diffusion Model for Protein Structure Prediction and De Novo Design
  • 11. LLM-Augmented Chemical Synthesis and Design Decision Programs
  • 12. Bridging 3D Molecular Structures and Artificial Intelligence by a Conformation Description Language
  • 13. Optimizing Blood-Brain Barrier Permeability in KRAS Inhibitors: A Structure-Constrained Molecular Generation Approach
  • 14. Learning Biophysical Dynamics with Protein Language Models
  • 15. Accelerating Antibody Discovery and Optimization with High‑throughput Experimentation and Machine Learning
  • 16. Integrating Machine Learning-Based Pose Sampling with Established Scoring Functions for Virtual Screening
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档