
分子生成是药物发现和材料设计的核心任务,但现有扩散模型直接在离散图数据上操作时面临分布失配和计算瓶颈。香港中文大学、清华大学、复旦大学及阿里巴巴团队在 CIKM 2024 发表的研究提出了 HGLDM——一个在三层连续潜空间中操作的层次化图潜在扩散模型。通过同时捕获原子级、子图级和全图级的结构信息,HGLDM 在数值属性和文本描述条件生成中全面超越现有方法,训练速度比基线快9.15倍,采样速度快34.7倍,且在"分子可溶于水"等文本引导编辑任务中命中率达到 96% 。
扩散模型在图像生成领域取得了革命性成功,从 DALL-E 到 Stable Diffusion,它们展示了惊人的生成能力。然而,当研究者试图将这一技术应用到分子生成时,遇到了一个根本性的问题:离散性与连续性的冲突。
图像是连续的像素矩阵,可以自然地添加高斯噪声并逐步去噪。但分子是离散的图结构——原子是离散的类型,化学键是离散的种类。直接在离散图上应用连续的高斯噪声,违反了扩散模型的理论基础,导致生成的分子不符合真实的化学分布。
更具体地说:

方法动机图,对比直接在离散图上扩散(产生无效分子)与在潜空间扩散(保证有效性)的差异
研究团队提出的解决方案是:不要在原始的离散图上做扩散,而是在连续的潜空间中进行。这个思路借鉴了图像生成领域的潜扩散模型,但针对分子的层次化结构做了重要创新。
HGLDM 的核心创新在于三层潜空间的联合扩散:
这种层次化设计不仅解决了离散-连续的冲突,更重要的是,它符合化学家理解分子的方式——从原子到基团再到整体。

HGLDM与GLDM的整体框架对比图,展示三层潜空间的设计
HGLDM 使用一个层次化自编码器将输入的分子图压缩为三个层次的潜向量:
原子级嵌入:每个原子被编码为一个连续向量,包含其元素类型、化学环境等信息。这一层次捕获了最细粒度的化学信息。
子图级嵌入:将分子分解为若干有意义的子结构(如功能基团、环系统),每个子图对应一个嵌入向量。这是 HGLDM 相对于之前工作的关键创新——子图是药物化学中的核心概念,许多药物分子的活性都与特定的子结构直接相关。
全图级嵌入:整个分子被压缩为一个全局向量,代表分子的整体特征(如分子量、极性、拓扑复杂度等)。
这三层嵌入不是孤立的,而是通过精心设计的神经网络架构相互关联,形成一个统一的层次化表示。
扩散模型的核心是去噪过程——从噪声中逐步恢复出清晰的数据。HGLDM 设计了一个层次化去噪块,在每一步去噪中同时更新三个层次的嵌入:

去噪神经网络及层次化Block的具体架构
第一步:更新原子嵌入 每个原子的嵌入不仅考虑其自身信息,还融合了它所属子图的信息。例如,苯环上的碳原子会感知到整个苯环的芳香性特征。
第二步:更新子图嵌入 使用注意力机制计算子图内每个原子的贡献。这一步很关键:不是所有原子对子图的功能都同等重要。例如,在羧基(-COOH)中,氧原子对酸性的贡献比碳原子更大。注意力机制让模型学会这种化学直觉。
第三步:更新全图嵌入 使用池化操作(如 PNA)聚合所有局部信息,形成全局视图。这确保了分子的整体特征与局部结构保持一致。
这种从下到上、从局部到全局的信息流动,使得 HGLDM 能够在不同尺度上同时优化分子结构。
HGLDM 的另一个重要优势是对多种条件输入的支持:
数值属性条件(如指定 QED=0.8):通过多层感知机处理后,注入到三层嵌入中 文本描述条件(如"该分子应该可溶于水"):使用 SciBERT 编码文本,再通过交叉注意力层与分子嵌入融合
这种设计使得 HGLDM 可以处理从简单的"生成一个分子量为300的分子"到复杂的"生成一个像阿司匹林一样的抗炎分子"等各种任务。
研究团队在两个标准数据集上测试了 HGLDM 的性能:
任务设置:给定一个或多个分子属性的目标值(如 QED=0.85, SA=3.2),生成满足这些条件的分子。
评估指标:
关键结果(ZINC250K 数据集):
在 QED、合成可及性、分子亲脂性三属性联合生成任务中:
HGLDM 在所有单属性和多属性任务中均取得最优性能。更重要的是,在复杂的三属性联合任务中,HGLDM 的优势更加明显——这说明层次化设计在捕获多个相互关联的化学性质时更有效。
除了生成质量,HGLDM 在计算效率上也实现了突破性提升:
训练速度:比 DiGress 快 9.15倍 采样速度:比 DiGress 快 34.7倍
这一提升主要来自两个方面:
这种效率提升意味着:研究人员可以在相同的计算预算下生成更多候选分子,或者对更大规模的分子库进行筛选。
HGLDM 最令人兴奋的能力之一是处理自然语言描述的条件生成。研究团队设计了21项文本引导任务,涵盖:
溶解性描述:"该分子可溶于水" 药效团特征:"该分子具有药物样特性" 结构相似性:"生成一个像阿司匹林的分子"、"生成一个像青霉素的分子"
在这些任务中,HGLDM 的表现远超对比基线 MoleculeSTM:
"可溶于水"任务:
QED/SA 范围描述任务(如"QED在0.6-0.7之间,SA在3-4之间"):
这种从严格数值约束到模糊语言描述的泛化能力,展示了 HGLDM 在实际药物发现场景中的应用潜力。药物化学家通常不会说"我需要一个 QED=0.85 的分子",而是说"我需要一个类药性好且易于合成的分子"——HGLDM 能够理解并满足这种自然的表达方式。
为了验证层次化设计的有效性,研究团队进行了系统的消融实验,对比了四种变体:
实验结果(ZINC250K,QED 任务):
结论明确:层次化的三层联合扩散显著优于单一层次的扩散。更深入的分析显示,子图级信息对于捕获药物化学性质(如 QED、合成可及性)至关重要。

子图与分子属性之间的注意力权重热力图,揭示特定子图对 QED/SA 等属性的影响
研究团队可视化了模型的注意力权重,揭示了一些有趣的发现:
对于 QED(类药性):模型学会了关注特定的药效团结构,如芳香环、杂环等。这些结构在已知药物中高频出现。
对于合成可及性:模型学会了识别复杂的环系统和立体化学中心——这些正是合成难度的主要来源。
这种可解释性非常重要。它不仅验证了模型学到了化学上有意义的知识,也为药物化学家提供了理解和信任模型的途径。
在"生成一个像阿司匹林的分子"任务中,HGLDM 展现了对参考分子核心结构的保留能力,同时引入了合理的变化。这对于先导化合物优化场景非常有价值:给定一个已知活性分子,设计其类似物以改善某些性质(如溶解度、代谢稳定性)。
研究团队通过潜空间插值实验展示了 HGLDM 的另一个有趣特性:在两个分子的潜向量之间进行线性插值,可以生成一系列平滑过渡的中间分子。
例如,从一个高 QED 但低 PlogP 的分子插值到一个低 QED 但高 PlogP 的分子,插值路径上的分子能够保留各自的优势特征,展现出合理的化学变化轨迹。
这种连续性表明,HGLDM 学到的潜空间具有良好的几何结构——相似的分子在潜空间中彼此接近,沿着潜向量移动对应着化学性质的平滑变化。
HGLDM 的直接前身是 GLDM(本公众号之前介绍过)。两者的核心区别在于:
实验表明,在简单任务中两者性能相近,但在复杂任务中 HGLDM 的优势显著。这验证了多尺度表示对于捕获复杂化学性质的重要性。
HGLDM 的成功再次证明了一个重要原则:选择正确的表示空间比选择复杂的模型架构更重要。
在离散图上直接扩散,就像在崎岖的山地上行走;而在连续的潜空间中扩散,就像在平坦的道路上前进。后者不仅更快,也更容易找到好的解。
化学家在设计分子时,自然地在多个尺度上思考:
HGLDM 的三层设计与这种思维方式高度契合。这不是巧合——好的 AI 系统应该模拟领域专家的思维模式。
HGLDM 对文本条件的支持标志着分子生成领域的一个重要转变:从基于规则的约束到基于意图的指导。
药物化学家不需要精确量化每个性质的目标值(这往往很难做到),只需用自然语言描述期望的特性。这大大降低了使用门槛,使得 AI 工具能够真正融入科学家的日常工作流程。
尽管 HGLDM 表现出色,但仍有改进空间:
超大分子的挑战:当前实验主要在小到中等大小的分子上进行(QM9 和 ZINC250K 中的分子平均重原子数 < 40)。对于生物大分子(如多肽、寡核苷酸)的生成能力尚未充分验证。
三维构象缺失:HGLDM 主要在二维图层面操作,未显式考虑分子的三维空间结构。对于手性分子或构象异构体,这可能是一个限制。
实验验证缺失:所有评估都基于计算指标(属性预测、对接分数等),缺乏实际合成和生物活性测试。
整合三维信息:结合最近的三维分子生成模型(如 GCLDM),在潜空间中同时编码二维拓扑和三维几何信息。
主动学习闭环:将 HGLDM 与实验反馈结合,形成"生成-合成-测试-优化"的闭环,加速先导化合物发现。
多模态融合:除了文本描述,还可以整合蛋白质结构、基因表达谱(如 GLDM 中的应用)等多种生物学信息。
可扩展的骨干架构:论文中提到 HGLDM 框架可以适配不同的自编码器作为骨干。未来可以探索更先进的图表示学习方法(如 Equivariant GNN)。
反应预测与逆合成:将层次化潜空间的思想扩展到化学反应建模,不仅生成产物分子,还预测合成路线。
Q1:为什么潜空间扩散比直接图扩散效果更好? 这不仅仅是数学上的优雅,更是信息论上的必然。离散图的"距离"定义不明确(两个相似的分子在图同构意义上可能完全不同),而潜空间提供了平滑的度量。在潜空间中,相似的分子自然地聚集在一起,插值路径对应着化学性质的平滑变化。此外,潜空间的维度远低于原始图空间,这使得扩散过程更加高效和稳定。
Q2:子图级嵌入为何如此重要? 药物化学中有一个经典概念叫"药效团"——决定分子生物活性的关键子结构。例如,许多抗炎药都含有芳香羧酸结构。如果只在原子级或全图级操作,模型很难显式学习这些中等尺度的模式。子图级嵌入正是捕获这一尺度信息的关键,它允许模型学习"这个子结构对 QED 有正面贡献"之类的知识。Fig. 5 的注意力热力图清晰展示了这一点。
Q3:HGLDM 的96%文本任务命中率是如何实现的? 这归功于两个因素:(1)SciBERT 预训练模型能够理解科学文献中的化学描述;(2)交叉注意力机制让分子嵌入能够动态关注文本中的关键信息。例如,对于"可溶于水"这一描述,模型学会了关注极性基团(如羟基、羧基)的存在。更重要的是,这种映射是端到端学习的,不需要人工定义规则。
Q4:34.7倍的采样加速从何而来? 主要来源有三:(1)潜空间的维度远低于原始图空间(例如,一个30原子的分子在原始空间需要表示30个原子类型和约450个可能的键,而潜空间可能只需要64维向量);(2)避免了键矩阵的显式计算,这在大分子中是 的瓶颈;(3)更平滑的潜空间使得扩散过程收敛更快,需要的去噪步数更少。
Q5:HGLDM 与图像领域的潜扩散模型(Stable Diffusion)有何异同? 核心思想相似——都是先压缩到潜空间再扩散。但实现细节大不相同:(1)分子是图而非网格,需要图神经网络而非卷积网络;(2)HGLDM 的层次化设计没有图像领域的对应物(图像通常不需要显式的"子区域级"表示);(3)化学约束(如价键规则)需要特殊处理,而图像没有这种硬约束。可以说,HGLDM 是将图像生成的成功经验创造性地移植到了分子领域,并针对化学特性做了深刻的改造。
Q6:如何评价 HGLDM 在"像阿司匹林"这类模糊任务上的表现? 这类任务的难点在于"像"的定义是主观的。HGLDM 通过 SciBERT 学到的嵌入隐式地编码了"阿司匹林-like"的概念——可能包括芳香环、羧酸基团、抗炎活性等多个维度。虽然论文没有详细展示生成的具体分子结构,但高命中率表明模型确实捕获了这些高层次的化学概念。未来可以通过可视化生成的分子与阿司匹林的结构相似性来进一步验证。
Q7:HGLDM 能否用于逆合成规划? 理论上可以,但需要一些扩展。逆合成规划是给定目标分子,预测如何从简单原料合成。HGLDM 的层次化潜空间可能包含了合成路径的隐式信息(因为合成可及性是训练目标之一)。一个可能的方向是:在潜空间中从目标分子向"简单分子"方向移动,同时预测每一步的化学反应。这需要额外的反应类型分类器,但框架是兼容的。
HGLDM 的发布标志着分子生成领域在表示学习和多尺度建模上的重要进展。通过将离散的分子图映射到连续的三层潜空间,HGLDM 不仅解决了扩散模型在图数据上的理论问题,更重要的是,它以一种符合化学直觉的方式捕获了从原子到基团再到整体的多尺度信息。
从实用角度看,HGLDM 的高效性(9-34倍加速)使得大规模分子筛选成为可能,而对文本条件的支持则大大降低了使用门槛。96%的文本任务命中率表明,AI 系统正在从"理解数字"进化到"理解意图"。
从科学角度看,HGLDM 展示了一个重要原则:好的 AI 模型应该模拟领域专家的思维方式。化学家在多个尺度上思考分子,HGLDM 也在多个尺度上表示和生成分子。这种一致性不仅提高了性能,也增强了可解释性和可信度。
随着技术的不断成熟——整合三维构象、建立实验闭环、扩展到更复杂的生物分子——我们有理由期待:层次化、多尺度、意图驱动的分子设计将成为下一代药物发现的标准范式。
参考文献:Bian T, Niu Y, Chang H, et al. Hierarchical graph latent diffusion model for conditional molecule generation[C] // Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 2024: 130-140.
欢迎在评论区分享您对 HGLDM 和层次化分子生成的看法。您认为多尺度表示是否是破解复杂分子设计的关键?对于您研究的药物靶点或材料体系,HGLDM 的文本引导能力能否带来新的设计思路?