首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | ICLR 2025 药物设计系列 | 蛋白结构预测与建模

AI+Drug 文献速递 | ICLR 2025 药物设计系列 | 蛋白结构预测与建模

作者头像
MindDance
发布2026-01-08 12:43:37
发布2026-01-08 12:43:37
3760
举报

1. Boltzmann-Aligned Inverse Folding Model as a Predictor of Mutational Effects on Protein-Protein Interactions

期刊: ICLR 2025 链接: https://openreview.net/forum?id=lzdFImKK8w 代码: https://github.com/aim-uofa/BA-DDG

简介: 本文提出Boltzmann Alignment技术,通过玻尔兹曼分布和热力学循环将预训练逆折叠模型的知识迁移至蛋白质-蛋白质相互作用突变效应(ΔΔG)预测,解决了现有方法忽视未结合态建模和对齐重要性的问题。方法基于贝叶斯定理和逆折叠模型的对数似然估计ΔΔG,通过BA-Cycle和BA-DDG分别实现无监督和有监督预测,其中BA-DDG通过引入统计热力学归纳偏置对逆折叠模型进行微调。实验在SKEMPI v2数据集上进行,无监督和有监督的Spearman系数分别达0.3201和0.5134,显著优于此前最优的0.2632和0.4324。消融实验验证了热力学循环和对齐方法的有效性,且模型在结合能预测、蛋白对接和抗体优化任务中表现出广泛适用性。该研究为突变效应预测提供了物理启发的新框架,提升了逆折叠模型在分子相互作用分析中的实用性。


2. Distilling Structural Representations into Protein Sequence Models

期刊: ICLR 2025 链接: https://openreview.net/forum?id=KXrgDM3mVD 代码: https://github.com/jozhang97/ISM

简介: 本文提出隐式结构模型(ISM),通过微环境自动编码器生成结构标记并结合自监督训练目标,将结构信息蒸馏至仅序列输入的蛋白质语言模型(如ESM2),解决了传统序列模型缺乏结构上下文的问题。方法首先利用图Transformer构建原子自动编码器,从蛋白质微环境中提取结构特征并聚类为离散标记,再通过结构调优(structure-tuning)使ESM2学习预测这些标记,实现结构信息的隐式编码。实验在CAMEO结构预测、S669 ΔΔG预测等基准测试中显示,ISM的GDT-TS分数达0.67(优于ESM2的0.64),在S669数据集的AUC为0.76,超越多数序列模型并接近结构输入模型。消融实验验证了自动编码器和标记聚类的有效性,且模型在功能表型预测中保持与ESM2相当的性能。该研究为序列模型融入结构信息提供了高效方案,仅需修改一行代码即可提升下游任务表现。


3. cryoSPHERE: Single-Particle Heterogeneous Reconstruction from Cryo-EM

期刊: ICLR 2025 链接: https://openreview.net/forum?id=n8O0trhost 代码: https://github.com/Gabriel-Ducrocq/cryoSPHERE

简介: 本文提出cryoSPHERE,一种基于变分自动编码器(VAE)的冷冻电镜(cryo-EM)单颗粒异质重建方法,利用名义结构(如AlphaFold预测结构)将蛋白质划分为可刚性移动的片段,解决传统方法难以解析构象异质性和高噪声问题。方法通过编码器将cryo-EM图像映射至潜在变量,解码器对每个片段生成刚性变换,同时利用高斯混合模型(GMM)学习序列分段,实现端到端的构象异质性建模。实验在合成数据集(含细菌光敏色素分子动力学数据)和真实数据集(EMPIAR-10180、EMPIAR-12093)上显示,cryoSPHERE在低信噪比(SNR=0.001)下的FSC分数优于cryoDRGN和cryoStar,能有效恢复蛋白质结构域的动态变化(如结构域旋转、开合运动),且在EMPIAR-12093的高异质性数据中表现出更强的噪声鲁棒性。该研究为解析蛋白质构象分布提供了结构约束下的高效方案,推动了 cryo-EM在动态大分子复合物研究中的应用。


4. Structure Language Models for Protein Conformation Generation

期刊: ICLR 2025 链接: https://openreview.net/forum?id=OzUNDnpQyd 代码: https://github.com/lujiarui/esmdiff

简介: 本文提出结构语言模型(SLM)框架,通过离散变分自动编码器(dVAE)将蛋白质结构编码为潜在空间的离散标记,结合条件语言建模生成多样化构象,解决传统扩散模型在三维几何空间生成效率低的问题。方法以ESM3为基础,通过掩码扩散微调提出ESMDiff模型,实现序列到结构的条件生成,并利用变分下界优化潜变量分布。实验在BPTI平衡动力学、构象变化对和内在无序蛋白(IDP)等任务上进行,使用JS散度、TM-ens等指标评估。结果显示,SLM在BPTI任务中JS-PwD达0.372,优于EigenFold等模型,且生成速度比现有方法快20-100倍。该研究为蛋白质构象生成提供了高效框架,结合语言模型和扩散模型优势,推动动态蛋白质设计。


5. AtomSurf: Surface Representation for Learning on Protein Structures

期刊: ICLR 2025 链接: https://openreview.net/forum?id=ARQIJXFcTH 代码: github.com/Vincentx15/atomsurf

简介: 本文研究蛋白质表面表示在几何深度学习中的应用,提出AtomSurf框架融合表面和图表示,解决单一表示的局限性。通过改进DiffusionNet处理蛋白质表面,结合图卷积网络(GCN)和 bipartite 图消息传递,实现节点级特征共享。实验在Atom3D基准(PIP、MSP、PSR任务)、MaSIF-ligand结合位点预测和PINDER数据集上进行,使用AUC-ROC、MCC等指标。结果显示,AtomSurf在PIP任务中AUC-ROC达0.909,优于ProNet和GVP模型,且在抗体表位预测中MCC提升0.25。该研究验证了多模态表示的协同优势,为蛋白质功能预测和结构分析提供新方法。


6. ProtComposer: Compositional Protein Structure Generation with 3D Ellipsoids

期刊: ICLR 2025 链接: https://arxiv.org/abs/2503.05025 代码: https://github.com/NVlabs/protcomposer

简介: 本文提出ProtComposer,通过3D椭球布局条件控制蛋白质结构生成,支持手工设计、现有蛋白编辑和统计模型生成新布局,解决生成模型多样性和可控性不足的问题。方法基于Multiflow模型,引入不变交叉注意力(Invariant Cross Attention)实现椭球与残基框架的消息传递,并通过分类器-free引导平衡设计性和多样性。实验在PDB验证集、合成椭球布局和手工设计案例中进行,使用覆盖度、准确率等指标。结果显示,在λ=1.0时,生成蛋白的覆盖度达0.78,接近真实蛋白的0.89,且在设计性-多样性权衡上超越Multiflow。该研究为蛋白质结构的可控生成提供了新范式,助力模块化蛋白设计和功能探索。


7. Protein Language Model Fitness is a Matter of Preference

期刊: ICLR 2025 链接: https://openreview.net/forum?id=UvPdpa4LuV

简介: 本文探讨蛋白质语言模型(pLMs)在零样本适应性预测中的表现,发现模型对特定序列的“隐式偏好”(由预训练数据决定)是预测性能的关键。研究通过分析数百个深度突变扫描(DMS)数据集,发现野生型序列的似然值过高或过低均会损害预测能力,且影响函数分析表明训练数据中的同源序列对模型偏好有幂律分布影响。通过无监督微调低似然序列可显著提升性能。实验使用ProteinGym的217个DMS数据集,对比了ESM-2和ProGen-2等模型,结果表明似然值与预测相关性呈倒抛物线关系,且微调策略能使ESM-2性能超越部分基于多序列比对的模型。该研究为pLMs在蛋白质工程中的应用提供了理论依据和优化方向,揭示了模型性能与训练数据偏好的深层关联。


8. Fragment and Geometry Aware Tokenization of Molecules for Structure-Based Drug Design Using Language Models

期刊: ICLR 2025 链接: https://openreview.net/forum?id=mMhZS7qt0U 代码: https://github.com/divelab/AIRS/tree/main/OpenMI/Frag2Seq

简介: 本文提出Frag2Seq方法,将3D分子转化为基于片段的序列表示,结合语言模型(LMs)进行基于结构的药物设计(SBDD)。通过构建SE(3)等变局部坐标系,提取片段的球面坐标和旋转向量,保留几何信息,并利用预训练逆折叠模型ESM-IF1的蛋白质口袋嵌入通过交叉注意力引导分子生成。实验在CrossDocked数据集上对比了3D-SBDD、DiffSBDD等基线模型,Frag2Seq在结合亲和力(Vina分数)、药物相似性(QED、Lipinski评分)和生成效率(最快300倍加速)上表现最优,且生成分子的碳碳键距离分布与真实数据更接近。该方法为SBDD提供了高效的LM框架,平衡了几何信息保留与生成速度,适用于药物发现中的分子设计任务。


9. EVA: Geometric Inverse Design for Fast Motif Scaffolding with Coupled Flow

期刊: ICLR 2025 链接: https://openreview.net/forum?id=KHkBpvmYVI

简介: 本文针对蛋白质基序支架设计中的生成与重建权衡问题,提出几何逆设计框架EVA,利用耦合流模型加速基序支架生成。通过基序对齐先验(Motif-Aligned Prior)调整初始点云的全局方向和质心,结合基序插值后验(Motif-Interpolated Posterior)在采样早期对齐生成方向与基序重建目标。实验在RFDiffusion基准(24个靶点)和疫苗设计数据集上对比RFDiffusion、TDS等模型,EVA在保证设计成功率(88%)和基序RMSD(<1Å占比42%)的同时,速度提升70倍,仅需100步采样。案例研究显示其在RSV-F疫苗靶点和多基序支架设计中有效。该方法为蛋白质设计提供了高效的无训练采样方案,通过几何约束优化生成路径,适用于快速探索多样支架结构。


10. Integrating Protein Dynamics into Structure-Based Drug Design via Full-Atom Stochastic Flows

期刊: ICLR 2025 链接: https://openreview.net/forum?id=9qS3HzSDNv

简介: 传统基于结构的药物设计(SBDD)忽视蛋白质动态性,导致应用受限。本文提出DynamicFlow模型,通过全原子随机流将蛋白质从apo态转化为holo态并生成配体分子,结合分子动力学模拟数据集,利用SE(3)等变几何消息传递层和Transformer层捕捉蛋白-配体相互作用,提升传统SBDD输入质量。实验使用MISATO数据集(过滤后含5,692个复合物),对比Pocket2Mol、TargetDiff等基线模型,DynamicFlow在结合亲和力(Vina评分更低)、配体成药性(QED、SA等指标更优)和构象覆盖度(RMSD更低)上表现更优,且生成的holo样构象可增强刚性口袋SBDD方法性能。该研究为动态蛋白质建模提供新框架,推动基于结构的药物设计发展。


11. CryoFM: A Flow-Based Foundation Model for Cryo-EM Densities

期刊: ICLR 2025 链接: https://openreview.net/forum?id=T4sMzjy7fO

简介: 冷冻电镜(cryo-EM)数据处理缺乏通用模型,本文提出CryoFM,基于流匹配学习高质量密度图分布,通过分层Transformer架构和后验采样方法,无需微调即可适配去噪、缺失楔修复等下游任务。实验使用EMDB数据集(3479张密度图,分辨率优于3.0Å),在谱噪声去噪、各向异性噪声处理、缺失楔修复等任务中,CryoFM的FSC指标显著优于DeepEMhancer、spIsoNet等基线,且在从头建模任务中生成结构分辨率接近cryoSPARC。研究首次将流模型作为冷冻电镜基础模型,为生物分子结构解析提供通用框架。


12. Proteína: Scaling Flow-Based Protein Structure Generative Models

期刊: ICLR 2025 链接: https://research.nvidia.com/labs/genair/proteina/ 代码: https://github.com/NVIDIA-Digital-Bio/proteina/

简介: 现有蛋白质结构生成模型规模小且缺乏可控性,Proteína通过400M参数非等变Transformer架构,结合2100万合成结构数据集(D₂₁M)和分层折叠类条件(CATH标签),实现对蛋白质 backbone 的长序列生成(最长800残基)和语义控制(如β-折叠比例提升)。实验对比FrameFlow、RFDiffusion等基线,Proteína在设计ability(最高99%)、多样性(TM-score更低)和新指标(FPSD、fJSD)上表现优异,且通过LoRA微调提升天然蛋白生成质量, autoguidance进一步增强设计可控性。该模型突破传统模型规模限制,为蛋白质从头设计提供高效可控的生成工具。


13. Stiefel Flow Matching for Moment-Constrained Structure Elucidation

期刊: ICLR 2025 链接: https://openreview.net/forum?id=84WmbzikPP 代码: https://github.com/aspuru-guzik-group/stiefelFM

简介: 针对分子结构解析中基于转动惯量精确约束的挑战,本文提出Stiefel流匹配模型,将满足转动惯量约束的分子点云嵌入Stiefel流形 (St(n,4)),通过黎曼流匹配和等变最优传输实现精确约束下的3D结构生成。模型利用曲线坐标参数化分子骨架,通过反射等变图神经网络预测流场,并引入基于贪心搜索的最优传输对齐噪声与数据样本,提升生成效率。实验在QM9和GEOM数据集上进行,以RMSD小于0.25Å为成功标准,Stiefel流匹配在QM9上成功率达15.17%,显著高于KREED等基线模型,且计算成本仅为其20%。GEOM数据集上通过过滤有效样本,成功率提升至3.94%,验证了模型在复杂分子中的有效性。研究首次将Stiefel流形应用于分子结构解析,为高精度约束下的生成建模提供了新框架,在化学和天体分子识别中具有应用潜力。


14. ProtPainter: Draw or Drag Protein via Topology-Guided Diffusion

期刊: ICLR 2025 链接: https://openreview.net/forum?id=Nq7yKYL0Bp

简介: 针对现有蛋白质骨架生成缺乏拓扑精确控制的问题,ProtPainter提出基于3D曲线引导的两阶段扩散模型,通过CurveEncoder预测曲线的二级结构注释生成草图,结合Helix-Gating融合调度机制在扩散过程中动态调整螺旋比例,实现拓扑约束下的骨架生成。实验构建了首个拓扑条件生成基准,包括蛋白质修复任务和自洽拓扑适应度(scTF)指标,在HHH_ems、med、GPCR数据集上,ProtPainter的scTF超过0.7,显著优于Chroma等基线模型,且设计ability(scTM>0.5)达83.2%-93.6%。用户可通过手绘、拖拽等操作生成新型拓扑结构,如铰链蛋白和纳米材料支架,展示了其在复杂结构设计中的灵活性。该研究为蛋白质设计提供了直观的拓扑控制工具,推动生成模型在功能蛋白和分子组装中的应用。


15. DPLM-2: A MULTIMODAL DIFFUSION PROTEIN LANGUAGE MODEL

期刊: ICLR 2025 链接: https://openreview.net/forum?id=5z9GjHgerY

简介: 本文提出多模态扩散蛋白质语言模型DPLM-2,解决现有方法单独建模蛋白质序列和结构模态的局限,实现两者的联合生成与理解。方法上,通过无查找量化结构标记器将3D坐标转为离散标记,结合预训练序列语言模型的进化信息进行高效热启动,并采用自混合训练策略缓解离散扩散中的暴露偏差。实验使用包含20K实验结构和200K高质量合成结构的PDB+AFDB-SwissProt数据集,在无条件生成、折叠、逆折叠、基序支架设计等任务上评估。结果显示,DPLM-2能同时生成高度兼容的序列和结构,在CAMEO 2022等基准上表现优于或接近ESMFold等强基线,生成的蛋白质二级结构分布更接近天然蛋白。该模型为蛋白质多模态建模提供了有效框架,推动了生成式蛋白质模型在结构-序列联合任务中的应用。


16. The Illustrated AlphaFold

期刊: ICLR Blogposts 2025 链接: https://d2jud02ci9yv69.cloudfront.net/2025-04-28-the-illustrated-alphafold-55/blog/the-illustrated-alphafold/

简介: 本文以可视化方式解析AlphaFold 3的架构与信息流,重点介绍其相较AlphaFold 2的改进,包括支持DNA、RNA和小分子的统一标记方案及基于扩散的结构模块。模型分为输入准备、表示学习和结构预测三部分:输入准备阶段对多模态分子进行标记,检索相似序列和模板构建MSA与模板表示,并生成原子级和标记级表征;表示学习通过模板模块、MSA模块和Pairformer更新标记级表征,引入三角形注意力等几何启发操作;结构预测采用条件扩散模型,基于标记级和原子级条件张量迭代去噪预测坐标。训练使用包含AF2生成数据的混合数据集,损失函数结合距离图、扩散损失和置信度头。实验表明,模型在蛋白质-配体复合物等复杂结构预测中表现优异,其设计融合了检索增强生成、自适应门控和迭代优化等机制,为生物分子结构预测提供了更通用的解决方案。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Boltzmann-Aligned Inverse Folding Model as a Predictor of Mutational Effects on Protein-Protein Interactions
  • 2. Distilling Structural Representations into Protein Sequence Models
  • 3. cryoSPHERE: Single-Particle Heterogeneous Reconstruction from Cryo-EM
  • 4. Structure Language Models for Protein Conformation Generation
  • 5. AtomSurf: Surface Representation for Learning on Protein Structures
  • 6. ProtComposer: Compositional Protein Structure Generation with 3D Ellipsoids
  • 7. Protein Language Model Fitness is a Matter of Preference
  • 8. Fragment and Geometry Aware Tokenization of Molecules for Structure-Based Drug Design Using Language Models
  • 9. EVA: Geometric Inverse Design for Fast Motif Scaffolding with Coupled Flow
  • 10. Integrating Protein Dynamics into Structure-Based Drug Design via Full-Atom Stochastic Flows
  • 11. CryoFM: A Flow-Based Foundation Model for Cryo-EM Densities
  • 12. Proteína: Scaling Flow-Based Protein Structure Generative Models
  • 13. Stiefel Flow Matching for Moment-Constrained Structure Elucidation
  • 14. ProtPainter: Draw or Drag Protein via Topology-Guided Diffusion
  • 15. DPLM-2: A MULTIMODAL DIFFUSION PROTEIN LANGUAGE MODEL
  • 16. The Illustrated AlphaFold
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档