首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Cell | PocketXMol:原子级统一建模重塑AI药物研发范式,并发现强效小分子和多肽抑制剂!

Cell | PocketXMol:原子级统一建模重塑AI药物研发范式,并发现强效小分子和多肽抑制剂!

作者头像
DrugAI
发布2026-03-03 17:39:46
发布2026-03-03 17:39:46
310
举报

在基于结构药物研发(SBDD)领域,分子生成、对接预测、多肽设计等核心任务长期依赖专用算法,跨任务迁移性差、分子表征不统一、任务定义模糊等瓶颈严重制约研发效率。近日,清华大学团队等在《Cell》发表的题为“Unified modeling of 3D molecular generation via atomic interactions with PocketXMol”的研究,提出了一种原子级通用生成AI模型 PocketXMol,通过三大核心创新实现了13类分子任务的统一建模,11项任务达到当前最优性能,并完成从小分子抑制剂到多肽探针的临床前验证,为AI药物研发带来范式级工具。

一、领域痛点与核心创新:为何需要原子级统一建模?

1. 传统模型的三大核心局限

当前AI药物研发模型普遍面临“任务割裂”困境:

  • 任务定义模糊:依赖自然语言描述分子任务,无法精准捕捉复杂空间关系和多片段交互需求;
  • 架构专用性强:针对小分子对接、多肽设计等单一任务定制模型,缺乏跨任务迁移能力,多任务联合训练难度大;
  • 表征体系分散:小分子、多肽采用不同类型特异性格式,阻碍了分子交互规律的通用学习。

这些问题导致药物研发流程中需整合多个工具,不仅效率低下,还可能因模型间兼容性问题引入误差。

2. PocketXMol的三大核心创新

PocketXMol的核心创新在于回归“原子交互是分子任务共同本质”的物理规律,构建了统一建模框架:

  • 原子级任务提示(Task Prompt):摒弃文本描述,采用二进制指标直接定义“原子类型/坐标/化学键是否固定或生成”,精准控制任务目标。例如在片段连接任务中,通过固定片段原子、开放连接子原子生成,实现精准的分子组装控制;
  • 通用去噪器(Universal Denoiser):基于E(3)等变几何神经网络,将不同任务的噪声(高斯坐标噪声、类别型原子/键类型噪声、SO(3)旋转噪声、扭转角循环噪声)映射到统一空间,无需任务特定微调即可实现多任务联合训练;
  • 原子级统一表征:不预设氨基酸、化学基团等高层结构,直接建模原子类型、3D坐标和化学键,天然支持小分子与多肽的跨类型迁移,甚至可直接生成非标准氨基酸(NAA)。

模型训练数据集涵盖11,985,300个小分子、39,911个蛋白-多肽复合物、85,434个蛋白-小分子复合物,来源包括PDBBind、CrossDocked2020、PepBDB等10余个权威数据库,确保了训练数据的全面性和代表性。

图1. PocketXMol框架。(A) 生成流程示意图。(B) 训练过程。PocketXMol采用通用去噪框架来整合来自多种分子类型的结构数据。(C) 典型任务的任务提示。(D) 具有不同任务特定噪声的带噪声分子的t分布随机邻域嵌入可视化。

二、多任务性能解析:13项任务的SOTA级表现

研究团队针对药物研发全流程的13类核心任务,与55个基线模型在51项指标上进行了全面对比,PocketXMol展现出压倒性优势:

1. 小分子相关任务:从设计到优化的全链条

  • 基于结构药物设计(SBDD):在100个基准口袋的评估中,14项指标(涵盖分子成药性、2D拓扑、3D保真度)中11项排名第一。生成分子中35.37%同时满足“Vina得分优于参考分子+3D结构有效”,远超第二名的20.54%(p=4.9×10⁻²⁴)(图2B)。即使输入AlphaFold预测口袋、Rosetta重排侧链口袋等非天然结构,性能依然稳定;
  • 3D分子生成:生成分子的原子间距离分布与真实药物分子高度吻合,2D/3D结构有效率显著高于MolDiff、GeoLDM等基线模型,且支持体积形状约束生成,可精准匹配预设分子拓扑(图2D);
  • 片段连接与PROTAC设计:在DiffLinker数据集上,2D/3D结构恢复率、与参考分子相似度均排名第一(图2E和2F);PROTAC设计中,固定片段构象时有效分子比例达59.60%(DiffLinker为34.03%)(图2G),未固定构象时达56.88%(LinkerNet仅6.99%)(图2H);
  • 分子优化:针对LogP值优化任务,100个测试分子经3轮迭代后快速收敛至目标值(1.8),优化后误差显著低于初始值(p=6.12×10⁻²⁰),且保持分子结构相似度(图2J)。

2. 多肽相关任务:从线性到环肽的全类型覆盖

  • 线性肽设计:在PepBDB测试集中,生成肽的氨基酸分布与测试集吻合度(Jensen-Shannon divergence=0.16)优于RFdiffusion pipeline(0.23),Rosetta结合能更低(p<0.05),二级结构分布更贴近天然肽(图4D-G);
  • 肽逆折叠:序列恢复率达61.7%(ProteinMPNN为54.4%,p=0.02),序列多样性显著更高(p=3.18×10⁻²⁴),侧链构象RMSD中位数仅1.1Å,与真实结构高度一致(图4H-J);
  • 环肽设计:在26个蛋白-环肽复合物测试中,Top1/Top10 Rosetta结合能优于AfDesign(cyclic),骨架RMSD和二级结构组成表现相当(图4K);
  • 非标准氨基酸(NAA)设计:天然支持NAA生成,共识别出454种独特NAA侧链,其Rosetta结合能与标准氨基酸相当或更优,为多肽药物的理化性质优化提供了新途径(图4L)。

图4. 肽设计性能。(A) PocketXMol与传统肽设计流程的差异。(B) BLOSUM62得分与氨基酸嵌入距离之间的关系。(C) 氨基酸嵌入的t分布随机邻域嵌入可视化。(D) 测试集中每个口袋由标准氨基酸组成的肽的百分比。(E) 生成的肽与测试集之间氨基酸组成的差异。(F) 蛋白质-肽复合物的Rosetta结合能分布。p值使用单侧配对t检验计算,n = 35。箱线图显示了四分位数和1.5 × 四分位距。(G) 不同方法生成的肽的二级结构比例。(H 和 I) 在逆折叠任务中,ProteinMPNN和PocketXMol的序列恢复率 (H) 和序列多样性 (I)。(J) 在逆折叠中,由PocketXMol恢复了氨基酸类型的侧链原子的均方根偏差分布(左图)及一个示例(右图)。(K) 环状肽设计的Rosetta结合能分布。p值使用单侧配对t检验计算 (n = 9)。箱线图显示了四分位数和1.5 × 四分位距。(L) PocketXMol生成的侧链嵌入的t分布随机邻域嵌入可视化。圆圈大小代表生成数量,颜色代表聚类。

3. 分子对接与结构预测:高精度与鲁棒性兼备

  • 小分子对接:在PoseBusters v1(428个复合物)中,RMSD<2Å的构象比例达83.4%(调优排序),仅次于AlphaFold 3(已知口袋);PoseBusters v2(308个复合物)中表现与AlphaFold 3相当(84.4%),且79.4%的构象同时满足“RMSD<2Å+PB-valid”,结构有效性突出(图6A-G);
  • 多肽对接:在PepBDB 79个复合物测试中,平均DockQ达0.58(调优排序), oracle排序下达0.73,显著优于AlphaFold-Multimer(0.43)和FlexPepDock(0.30),且支持含NAA多肽的精准对接(13个测试样本中13个DockQ≥0.49);
  • 酶-底物识别:在卤化酶、糖基转移酶等4类酶家族中,对接置信度得分的AUROC均值达0.68,显著高于AlphaFold 3(0.56)(图6J、6K),结合神经网络隐藏表征训练的逻辑回归模型后,AUROC进一步提升5.9%-51.9%;
  • 虚拟筛选:在DEKOIS 2.0基准中,ROC_AUC中位数达0.787,与当KarmaDock(0.786)相当,无需任务微调即可实现高效筛选。

三、临床前验证:从计算设计到生物活性的闭环

1. Caspase-9抑制剂:特异性与活性比肩商用药物

Caspase-9是肿瘤内在凋亡通路的关键靶点,现有泛caspase抑制剂缺乏亚型特异性。研究团队用PocketXMol设计了16个小分子抑制剂,经优化后获得4个高活性分子(D12、D13、D18、D19):

  • 生物活性:D12能有效抑制ABT-737诱导的caspase-9激活,下游caspase-3/PARP1切割抑制效果与商用抑制剂QVD-OPh、Z-LEHD-FMK TFA相当;
  • 特异性:不直接抑制caspase-3(与QVD-OPh不同),SPR实验显示C287A突变后结合亲和力下降30倍,验证了预测结合位点的准确性;
  • 可开发性:设计分子与已知caspase抑制剂相似度低,无近缘匹配的商用化合物,为新结构类型抑制剂研发提供了基础。

2. PD-L1靶向肽:高亲和力与体内肿瘤靶向性验证

PD-L1是免疫治疗的核心靶点,PocketXMol设计的10残基肽展现出优异的靶向性能:

  • 结合亲和力:382个合成肽中,15个Kd达10⁻⁸M,76个达10⁻⁷M,命中率远超随机肽库(10⁷库容仅8个10⁻⁸M级肽);
  • 细胞特异性:FITC标记的P65、P73、P282肽能特异性结合PD-L1阳性H1975细胞,与PD-L1抗体共定位,对PD-L1阴性293T细胞无明显结合;
  • 体内成像:ICG标记肽经尾静脉注射后,0.5小时即可在H1975异种移植肿瘤中富集,4小时达荧光峰值,12小时肿瘤部位信号仍显著高于游离ICG对照组,且肝肾功能无明显异常;
  • 功能活性:P282肽能剂量依赖性抑制PD-1/PD-L1相互作用,为免疫治疗提供了新的肽类候选分子。

四、技术细节与方法论启示

1. 模型架构与训练策略

PocketXMol的核心是“噪声扰动-去噪生成”的迭代过程:

  • 噪声设计:针对不同分子组件(坐标、原子类型、键类型、扭转角)设计专用噪声(高斯分布、类别分布、SO(3)各向同性高斯、循环正态分布),任务噪声ξ通过分子片段拆分实现精准控制;
  • 生成流程:通过任务提示P定义固定/生成组件,迭代施加缩放噪声(βᵗ从1衰减至0)并通过通用去噪器F_θ去噪,100步迭代后输出最终分子及置信度得分(原子类型、坐标、键类型分别打分);
  • 训练优化:采用AdamW优化器,在8张80G A100 GPU上训练180,000步(约54小时),损失函数包含原子类型交叉熵、坐标平方误差、键类型交叉熵等加权项,确保多任务学习的均衡性。

2. 优势与局限性对比

维度

PocketXMol优势

现有模型局限

任务覆盖

13类核心任务统一建模,无需微调

单一任务专用,跨任务需重新训练/适配

分子类型兼容

小分子、多肽、NAA、环肽统一表征

小分子与多肽模型分离,不支持NAA直接生成

输入结构鲁棒性

兼容AlphaFold预测口袋、apo结构、侧链重排结构

依赖天然holo结构,非天然结构下性能大幅下降

实验转化能力

小分子/多肽均完成临床前验证,活性比肩商用药物

多停留在计算验证,临床前转化案例少

扩展性

支持先验知识整合(固定原子坐标、片段位置等)

先验知识融入困难,灵活性不足

局限性方面,PocketXMol目前聚焦口袋相关任务,不支持蛋白-核酸对接;二次缩放限制了大型复合物建模;训练数据中稀有元素/金属离子配体覆盖不足;需预设口袋结构,无法联合推断口袋边界,这些均为后续优化方向。

结语:AI药物研发进入 通用模型 时代

PocketXMol的发表,标志着AI药物研发从“任务专用模型”向“通用原子级建模”的跨越。它不仅通过多任务SOTA性能证明了统一建模的可行性,更通过临床前实验验证了计算设计的实用性。随着模型在大型复合物、稀有配体、诱导契合对接等场景的持续优化,AI驱动的药物研发将迎来更高效、更精准的新时代。

参考文献:Xingang Peng, Ruihan Guo, Fenglin Guo, Ziyi Wang, Jiayu Sun, Jiaqi Guan, Yinjun Jia, Yan Xu, Yanwen Huang, Muhan Zhang, Jian Peng, Xinquan Wang, Chuanhui Han, Zihua Wang, Jianzhu Ma,Unified modeling of 3D molecular generation via atomic interactions with PocketXMol, Cell, 2026, ISSN 0092-8674,

代码链接:https://github.com/pengxingang/PocketXMol

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、领域痛点与核心创新:为何需要原子级统一建模?
    • 1. 传统模型的三大核心局限
    • 2. PocketXMol的三大核心创新
  • 二、多任务性能解析:13项任务的SOTA级表现
    • 1. 小分子相关任务:从设计到优化的全链条
    • 2. 多肽相关任务:从线性到环肽的全类型覆盖
  • 三、临床前验证:从计算设计到生物活性的闭环
    • 1. Caspase-9抑制剂:特异性与活性比肩商用药物
    • 2. PD-L1靶向肽:高亲和力与体内肿瘤靶向性验证
  • 四、技术细节与方法论启示
    • 1. 模型架构与训练策略
    • 2. 优势与局限性对比
  • 结语:AI药物研发进入 通用模型 时代
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档