首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Cell | AI重构原子级生成框架,清华马剑竹团队用PocketXMol实现小分子与多肽统一设计

Cell | AI重构原子级生成框架,清华马剑竹团队用PocketXMol实现小分子与多肽统一设计

作者头像
DrugOne
发布2026-03-02 19:33:13
发布2026-03-02 19:33:13
620
举报
文章被收录于专栏:DrugOneDrugOne

星标,再也不怕错过更新!方法见文末动图。

小分子药物设计、多肽生成、片段连接与逆折叠等任务,长期以来分别由不同模型与流程处理。小分子通常依赖图模型与3D生成框架,多肽设计则分为 backbone 构建、序列设计与侧链打包等多个阶段。不同任务拥有不同表示方式与训练数据,模型之间难以共享知识,也难以实现跨模态迁移。尽管近年来扩散模型和图生成模型快速发展,但“是否可以用一个统一模型同时处理多种3D分子生成任务”这一问题,一直缺乏清晰答案。

2026年2月21日,清华大学智能产业研究院、北京生物结构前沿研究中心马剑竹老师团队、王新泉老师团队在 Cell 期刊上发表题为 “Unified modeling of 3D molecular generation via atomic interactions with PocketXMol” 的研究论文,针对“多模态分子生成长期分裂”这一核心问题,提出了一个基于原子相互作用的统一生成框架 PocketXMol。作者将小分子、多肽、片段链接、逆折叠等任务统一抽象为“在给定部分原子与键约束条件下补全剩余原子结构”的问题,在同一原子级表示空间内建模不同任务。模型无需区分分子类型,仅通过输入掩码控制生成区域,从而在结构引导小分子设计、3D分子生成、fragment linking、分子优化以及多肽设计等多种任务上取得稳定表现。

进一步地,作者在 caspase-9 抑制剂设计与 PD-L1 结合肽设计中进行了实验验证,证明模型生成分子具备真实生物活性。该研究提出了一种以“原子级统一表示”为核心的多模态分子生成范式,将原本彼此独立的设计问题整合为同一种条件生成框架,为跨分子类型的AI药物设计提供了新的方法基础。

01

第一部分|为什么需要“统一”的分子生成模型?

过去几年,AI 在分子设计领域的发展可以说是“多点开花”。

小分子生成有图扩散模型与3D构象生成框架;多肽设计有 backbone 生成、序列设计与侧链 packing 的分步流程;蛋白–小分子相互作用有专门的结构条件生成体系;片段连接、逆折叠、分子优化,各自都有成熟的技术路径。

每个方向都在进步,但它们之间几乎没有共享模型。但问题并不在能力,而在划分方式。

在现有体系中,小分子被当作“图问题”,多肽被当作“序列问题”,结构引导设计被当作“条件生成问题”。任务是按对象类型划分的,而不是按结构本质划分的。

然而,从物理层面看,这些问题其实共享同一套基本规律:

• 原子之间的相互作用

• 键长与键角分布

• 局部几何稳定性

• 口袋空间约束

这些规律在小分子、多肽、片段甚至复合物中都是一致的。

如果底层物理是共享的,那么模型为什么必须割裂?

这正是这篇工作提出的核心问题。

02

模型如何真正实现“统一”?

如果第一部分提出的是一个问题——能否用同一个模型处理不同分子生成任务?

那么论文的第一张图(Figure 1)给出的,就是技术答案。这张图的关键,不是模型规模,而是建模单位的重组。

作者没有为小分子、多肽、片段设计不同网络,而是先做了一件更基础的事:把所有对象都抽象为同一种原子级表示。

无论是小分子图结构,还是蛋白三维结构,最终都被转化为:

• 原子类型

• 原子三维坐标

• 化学键关系

模型始终处理同一类结构节点与相互作用关系。在这样的设定下,表面看统一的是“任务”,其实真正统一的是“表示”。

你会注意到,在架构图中,不同任务的输入形式不同,但生成模块是共享的。也就是说,任务的区别主要来自“条件”,而不是来自模型结构本身。

比如:

• 给定一个蛋白口袋,模型生成匹配的小分子;

• 给定一个分子片段,模型完成结构扩展;

• 给定功能或约束标签,模型生成满足条件的候选分子。

这些任务在图里并不是分成多条完全独立的路径,而是通过条件控制进入同一个生成核心。

这也就说明:任务不再是模型层面的分裂,而是输入层面的调控。

另外,在训练流程图中可以看到,多种类型的数据被混合训练,参数是共享的。这种多任务联合学习,使模型在不同任务之间建立结构上的联系,而不是孤立优化。

从图中可以很直观地感受到作者的设计思路:不是为每个问题都开发一个工具,而是构建一个统一的模型能同时处理多种问题。

而这一点,是整篇文章最根本的变化。

到这里,统一框架的整体结构已经清楚。但真正决定这件事能否成立的,是一个更细的问题:

不同生成任务,如何在同一个模型中被表达?

在论文的任务示意图中可以看到,作者把所有生成问题都抽象为同一组基本要素:原子类型、原子坐标和键类型。区别不在于“做什么任务”,而在于哪些信息是固定的,哪些需要生成。

比如,在3D分子生成或基于结构的药物设计中,分子的原子类型、原子坐标和化学键类型都需要生成;

在docking任务或者多构象生成任务中,原子类型和化学键类型被固定,但是原子坐标需要生成;

在片段连接任务中,两个 fragment 是固定的,中间的 linker 需要生成;

也就是说,任务的差异不再体现在模型结构层面,而体现在输入掩码的不同配置上。

这一步非常关键。它把原本彼此独立的任务,转化为同一种“条件生成”问题。模型看到的始终是同一种分子表示,只是生成区域不同。

但统一表达还不够。不同任务在物理层面的约束差异也很明显。Docking、de novo 生成、片段生长,它们的构象自由度和噪声模式完全不同。

在分子噪声的可视化图中可以看到,不同任务对应的分子分布在表示空间中形成相对独立的区域。这说明作者并没有强行用完全相同的噪声分布处理所有任务,而是在统一框架下引入了任务特异的噪声调度机制。

统一的是模型结构与表示方式,保留的是物理合理性。

正是这两步——统一任务表达与可控噪声机制——让这个框架不仅在概念上成立,在技术上也站得住。

03

统一之后,模型真的能同时做好这么多任务吗?

讲完统一框架与任务表达,一个更现实的问题就出现了:

当一个模型同时承担这么多生成任务时,它会不会变成“什么都能做一点,但什么都不够好”?

论文的结果部分,本质上是在系统回答这个问题。

在结构引导小分子设计(SBDD)任务中,模型需要在蛋白口袋约束下生成匹配的小分子。这类任务通常对三维几何、化学合理性、以及对接评分都非常敏感。结果显示,在分子图质量、物化性质、三维结构合理性等多项指标上,PocketXMol在大多数指标上处于领先位置。更关键的是,在“同时获得更优对接评分且三维结构有效”的分子比例上,它明显优于对比方法。这意味着模型不仅生成的分子“看起来好”,而且在结构匹配层面具有实质优势。

在纯 3D 分子生成任务中,模型不依赖蛋白口袋约束,而是直接生成三维分子结构。论文显示,生成分子的几何统计分布与真实药物分子高度一致。这一点很重要,因为它说明模型学到的是分子结构的基本几何规律,而不是特定任务的技巧性偏置。

在 fragment linking 和 fragment growing 任务中,模型需要在“部分结构已知”的情况下补全剩余部分。这里的难点在于:既不能破坏固定片段的结构,又要保证连接部分在化学与几何上合理。结果显示,无论在已知片段姿态还是姿态扰动的情况下,PocketXMol都能保持较高的有效率与结构相似度。这与前面讲到的“任务特异噪声机制”是呼应的——统一框架并没有抹平不同任务的物理约束,反而通过统一表示让模型学到更稳健的结构规律。

在分子优化任务中,模型被要求在保持结构相似性的前提下调整特定性质(例如 LogP)。实验结果显示,模型能够将分子性质稳定推向目标区间,同时避免剧烈结构偏移。这种“渐进式优化”能力,说明模型不仅能从零生成,也能在既有结构上做精细调整。

更值得注意的是,论文并未停留在计算评测。

在 caspase-9 抑制剂设计这一应用场景中,作者将模型生成的候选分子进行了合成与实验验证。部分分子在细胞水平和酶学实验中显示出显著抑制效果,并且结合位点预测通过突变实验得到支持。这意味着模型不仅在指标上表现优秀,而且能够产出具有真实生物活性的候选分子。

如果把这一系列结果放在一起看,可以得出一个更清晰的结论:

这个统一模型并不是在某一个任务上“极端领先”,而是在多种不同约束、不同尺度、不同模态的任务下都保持稳定、高质量的表现。

统一,并没有带来能力塌缩。相反,多任务联合训练似乎强化了模型对分子结构基本规律的理解,使它在不同场景下都能迁移应用。

这也是本文结果部分最重要的信号。

04

从小分子到多肽:统一表示是否还能成立?

如果说小分子部分证明了模型在传统药物设计流程中的能力,那么多肽部分考验的是一件更难的事情:

同一个原子级生成框架,能否跨越分子类型?

论文在多肽设计部分,覆盖了线性肽、环肽、含非天然氨基酸(NAAs)的设计,以及逆折叠任务。这些任务在传统建模体系中通常分属不同方法路径。

1. 与传统多肽设计流程的区别

在常规多肽设计流程中,通常是分步进行:

1.先生成 backbone

2.再设计序列

3.最后进行侧链packing

而在 PocketXMol 中,模型直接在原子层面同时生成 backbone 和 side-chain 的原子与键结构。生成完成后,再根据生成的侧链结构“标注”残基类型。

也就是说,模型并不是先预测氨基酸类别,再决定结构,而是先生成原子结构,再由结构推断氨基酸类型。

这一步本质上把“序列设计”问题转化成了“原子补全”问题。

结果显示,在蛋白–多肽复合物测试集上,生成的多肽在 Rosetta 结合能评分上与现有方法相当甚至更优。同时,氨基酸嵌入空间的聚类结构与真实氨基酸之间的替代关系高度一致,嵌入距离与 BLOSUM62 替代分数显著相关。

这说明模型不仅学到了几何结构,还学到了氨基酸之间的化学语义关系。

2.与传统多肽设计方法对比

论文将 PocketXMol 与“RFdiffusion + ProteinMPNN + Rosetta”的经典流程进行了对比。

结果显示:

• 序列恢复率更高

• 结构 RMSD 更低

• Rosetta 结合能更优

同时,生成的多肽在二级结构比例上更接近测试集分布,说明模型没有引入明显结构偏置。

换句话说,它不仅能生成“好看”的肽,还能生成“像真实肽”的肽。

3. 非天然氨基酸(NAAs)

由于模型直接在原子层面生成侧链,而不是先预测氨基酸类别,因此天然支持非天然氨基酸设计。

论文统计到 454 种不同的 NAA 侧链结构,覆盖不同尺寸与理化性质。并且在 Rosetta 结合能上,与标准氨基酸相比并未出现系统性劣势。

这一点是传统基于序列分类模型难以实现的。

4.PD-L1 结合肽实验验证

最重要的是,作者不仅做了计算评测,还进行了实验验证。

他们设计了针对 PD-L1 的 10-residue 肽,进行 SPRi 实验验证。结果显示:

• 15 条肽达到 ~10^-8 M 的结合亲和力

• 在去除训练集中 PD-L1 同源结构后,模型仍然能生成高亲和力肽

这一步证明了模型的泛化能力——不是靠记忆相似结构。

如果把小分子和多肽两部分合在一起看,论文传递的其实是一个更大的信息:

原子级统一表示,让“分子类型”这件事不再成为建模边界。

模型面对的不是“小分子任务”或“多肽任务”,而是同一种原子与键的生成问题,只是约束不同。

这正是前面统一框架设计的真正意义。

05

第五部分|这篇工作的真正突破在哪里?

读完整个结果部分,会有一个很明显的感受:

这篇文章并不是在某一个具体任务上做到极致。它真正的突破,是在“表示层面”。

过去,小分子设计和多肽设计是两套体系。

• 小分子用图模型

• 多肽用序列模型或蛋白结构模型

• 任务之间需要单独设计 pipeline

而在这篇工作里,作者把问题抽象到原子级别:

所有任务都变成了——在给定一部分原子与键的条件下,补全剩余部分。

模型不再区分“分子类型”,只区分“哪些字段是固定的”。

这带来两个直接结果:

第一,多任务之间共享结构规律。

第二,跨模态迁移成为自然结果,而不是额外设计。

小分子与多肽的统一,并不是简单地“支持两种数据”,而是通过统一表示消除了模态边界。

从工程角度看,这意味着:不需要为每种设计问题单独训练模型。

从方法角度看,这意味着:分子生成问题可能不再需要按类型划分。

这才是这篇文章真正值得关注的地方。

06

结语|统一,不只是工程整合

读完这篇工作,最深的感受其实不是某一个指标领先,也不是某一个实验结果漂亮。

而是一个更基础的改变:

分子生成问题,被重新定义了。

它不再被拆成“小分子设计”“多肽设计”“逆折叠”“片段连接”这些彼此分离的任务。在原子级表示下,它们只是不同的约束组合。

当任务差异从“模型结构差异”变成“输入掩码差异”时,多模态不再是拼接,而是自然统一。

当然,这并不意味着从此所有分子设计问题都能一网打尽。数据规模、训练分布、物理约束,这些问题依然存在。但至少在表示层面,这篇工作提供了一种更简洁的答案。

如果说前几年我们看到的是模型能力在单一方向上的突破,那么这篇文章展示的,是生成问题在结构层面的整合。

它不是某个任务的最优解。它更像是一次框架的重构。

而框架的改变,往往比单点性能提升更值得关注。


Peng, Xingang, Ruihan Guo, Fenglin Guo, Ziyi Wang, Jiayu Sun, Jiaqi Guan, Yinjun Jia et al. "Unified modeling of 3D molecular generation via atomic interactions with PocketXMol." Cell (2026).

供稿 | 刘安吉

责编 | 囡囡

设计 / 排版 | 可洲

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档