扩散模型在图像生成领域大获成功,但在分子生成这个离散数据领域,自回归模型始终占据主导。韩国科学技术院的研究团队提出 LDMol,通过 SMILES 枚举对比学习构建结构感知的潜空间,让扩散模型真正理解分子结构。实验表明,LDMol 在文本到分子生成任务中全面超越现有自回归模型,同时展现出强大的跨模态检索和分子编辑能力,成为首批在离散序列生成领域成功的扩散模型之一。

LDMol 整体架构图 - 展示对比学习训练编码器、自回归解码器训练及潜扩散训练三个阶段
扩散模型的核心机制是在连续空间中逐步添加和去除高斯噪声。这套方法在图像这类连续数据上表现完美,但分子天然是离散的——原子类型只能是固定的元素,化学键只能是单键、双键或三键,SMILES 字符串更是由离散 token 组成。将连续噪声直接施加到离散符号上,本质上是在不兼容的空间中建立映射。
当条件变得复杂时,问题更加突出。简单的分子量或溶解度控制尚可应对,但要求模型理解青霉素含有 β-内酰胺环且具有抗菌活性这样的自然语言描述时,基于原始离散表示的扩散模型往往生成大量无效分子或完全偏离要求。
核心挑战在于:如何为扩散模型构建一个既适应连续噪声过程,又能有效编码分子结构信息的表示空间?这个空间必须满足三个条件——能准确重建原始分子、维度适中便于扩散训练、捕捉分子的本质结构而非表面的 token 顺序。
传统自编码器虽能重建输入,但仅用重建损失训练的潜空间组织混乱:结构相似的分子可能相距很远,而仅 token 顺序不同的同一分子却占据不同区域。这样的空间无法支撑高质量的扩散生成。
LDMol 的核心创新是 SMILES 枚举对比学习。同一分子可以有多种等价的 SMILES 表示——例如苯环可以从不同原子开始遍历,生成不同字符串,但都对应同一个六元环结构。
研究团队将同一分子的不同 SMILES 表示视为正样本对,不同分子的 SMILES 视为负样本对,通过 InfoNCE 损失训练编码器。这个过程迫使模型识别分子的本质结构,而不是记忆字符序列。如果两个字符串只是同一分子的不同写法,它们应被映射到相近位置;如果是不同分子,即使看起来相似也应被分开。

SMILES 枚举对编码器特征的影响 - 展示同一分子的不同枚举在潜空间中的距离变化
这个策略赋予潜空间良好的几何性质——结构相似的分子彼此接近,为扩散模型的插值和采样提供坚实基础。更关键的是,它提取出与 token 顺序无关的深层特征,自然捕捉分子图的拓扑结构和官能团分布。
简单的随机负样本容易让模型学到粗糙特征。LDMol 引入立体异构体作为硬负样本——它们具有相同的分子式和连接方式,仅在三维构型上不同,却可能有完全不同的生物活性。

通过强制模型区分这些微妙差异,编码器被迫学习更精细的结构特征。消融实验显示,该表展示了无立体异构体硬负样本情况下的性能下降,证明了这一设计的必要性。
阶段一:对比学习预训练 使用 BERT-base 架构的 Transformer 编码 SMILES,输出 [128 × 768] 特征矩阵。通过 SMILES 枚举构造正负样本对,最小化 InfoNCE 损失,让编码器学会识别分子本质结构。
阶段二:自编码器训练 固定编码器,添加线性压缩层将特征降至 [128 × 64],训练自回归解码器重建原始 SMILES。下表对比了不同压缩维度对 SMILES 重构准确率的影响,证明 64 维是信息保留与训练难度的良好平衡点。

阶段三:潜扩散训练 在冻结的潜空间中训练扩散模型。采用 DiT 架构而非 UNet,通过自注意力机制处理全局依赖。在 DiT 块中加入交叉注意力层,融合来自 MolT5 的文本条件特征。下表列出了完整的模型超参数和训练设置。


标准 DiT 块与 LDMol 修改版 DiT 块的对比
这个三阶段设计有效分离了不同层次的学习目标:第一阶段专注结构理解,第二阶段确保信息传递,第三阶段学习条件生成分布。
在 ChEBI-20 和 PCDes 数据集上,LDMol 刷新了几乎所有指标。下表展示了完整的基准测试结果,LDMol 在有效性、BLEU、Levenshtein 距离、以及多种指纹的 Tanimoto 相似度等指标上全面领先。

特别值得关注的是 Morgan 指纹的 Tanimoto 相似度达到 0.931,而此前表现最好的自回归模型 BioT5+ 仅为 0.779。这个 0.15 的差距在药物发现中意义重大——超过 0.85 通常被认为是高度相似的化合物,很可能具有相似的生物活性。

LDMol 根据不同文本条件生成的分子示例
针对特定案例的深入分析,下表定量对比了 LDMol 与基线模型在五种特定场景下的表现,包括特定原子、化合物类别、子结构、官能团和物质名称等,展示了 LDMol 在各类复杂条件下的稳定性能。

训练好的扩散模型本身是强大的分类器。通过计算给定分子和候选文本的噪声估计误差,可以衡量匹配程度。下表展示了在 PCdes 和 MoMu 数据集上的分子到文本检索准确率,LDMol 在 64 路准确率上全面领先,在 MoMu 段落级检索中表现尤为突出。

这揭示了深刻事实:扩散模型在学习生成分布时,自然学会了判别性特征。这种生成与判别能力的统一,为药物发现中的文献检索和化合物筛选提供了新工具。
基于 Delta Denoising Score 方法,LDMol 实现了条件引导的分子编辑。给定起始分子和修饰指令,模型能在保留核心结构的同时,按要求添加或删除官能团。

分子编辑成功率对比柱状图
在 8 个测试场景中,LDMol 在 5 个场景中超越 MoleculeSTM。特别是在增加羟基、改变氢键供体/受体数量等任务上,成功率显著更高。这种能力对先导化合物优化至关重要。

文本引导分子编辑的具体化学结构变化示例
下表对比了不使用对比学习、使用 β-VAE 正则化以及完整 LDMol 的性能差异。去除对比学习损失后,性能发生灾难性崩溃——分子有效性从 94.1% 降至 1.9%,匹配率几乎归零。

重建损失只关心端到端准确性,不约束潜空间几何结构。编码器可能将结构相似的分子映射到任意位置,潜空间呈现高度非线性和碎片化。扩散模型在这样的空间中采样时,容易落入无意义区域。
对比学习的作用是规范潜空间拓扑——通过强制等价表示聚合、不同结构分离,将混乱的高维空间塑造成平滑、连续、语义有序的流形。
下表进一步分析了压缩层设计的影响。直接在高维空间训练扩散模型极其缓慢且易失败,使用过于复杂的压缩器反而导致性能下降。简单的线性投影被证明是最优选择。


UMAP 可视化 - 展示具有相同 Murcko 骨架的分子在潜空间中的聚类
UMAP 可视化显示,在良好训练的潜空间中,具有相同 Murcko 骨架的分子形成紧密聚类,不同骨架被清晰分开。这种层次化组织反映了化学知识的内在结构。
下表对比了 LDMol 与自回归模型在推理时间和显存占用上的效率,表明 LDMol 在保持高性能的同时具有竞争力的计算成本。

LDMol 验证了关键原则:表示空间的设计决定生成模型的上限。对于离散数据,潜空间扩散可能比直接在原始空间建模更明智。
SMILES 枚举对比学习提供了通用的数据增强范式。在其他涉及多重表示的领域,如蛋白质序列、化学反应、知识图谱等,类似策略都可能发挥作用。核心思想是利用数据的对称性和等价关系,引导模型学习不变的本质特征。
面对极端复杂的生物活性描述时,模型仍可能力不从心。这部分源于训练数据不足——现有文本-分子配对主要来自结构化描述,缺乏深层生物学机制信息。未来需要整合蛋白结构、基因表达等多模态知识。
生成速度仍有提升空间。虽然扩散模型支持并行采样,但 LDMol 需要数百步去噪才能达到最佳质量。改进方向包括采用 DDIM 或一致性模型等高效采样算法。
在多模态融合方面,可以将蛋白结构信息整合到条件特征中,实现真正的结构辅助药物设计。在分子编辑方面,可探索更精细的控制机制,如指定编辑位点、保留特定子结构等约束。
更激进的设想是将 LDMol 思想推广到其他科学领域。材料科学中的晶体结构生成、合成生物学中的基因线路设计、药物剂型的配方优化,都涉及复杂的离散组合空间。如果能找到合适的结构等价关系,构建相应对比学习目标,潜空间扩散可能成为通用生成框架。
Q1: 为什么 SMILES 枚举对比学习比传统图增强更有效?
传统图增强如随机删边、添加噪声往往破坏分子的化学有效性。SMILES 枚举是语义保持的增强——所有变体对应完全相同的分子图,只是遍历顺序不同。这确保增强后数据依然有效,同时迫使模型学习与表示形式无关的深层结构特征。
Q2: LDMol 的潜空间与分子指纹有何本质区别?
分子指纹如 ECFP、MACCS 是手工设计的稀疏二值向量,每一位对应特定子结构模式。虽然对相似性搜索有效,但缺乏连续性和可微性,不适合作为生成模型输出空间。LDMol 的潜空间是端到端学习的稠密连续表示,具备平滑的语义插值特性——在潜空间中的小步移动对应化学结构的渐进变化。
Q3: 如何理解扩散模型同时具备生成和判别能力?
扩散模型通过学习数据分布的得分函数来生成样本。这个得分函数也可用于评估:给定数据点和条件,计算其匹配程度。通过比较不同文本条件下的噪声估计误差,模型实际在评估各条件的后验概率。这种生成与判别的统一性是扩散模型的独特优势。
参考文献: Chang J, Ye J C. LDMol: A Text-to-Molecule Diffusion Model with Structurally Informative Latent Space Surpasses AR Models[J]. arXiv preprint arXiv:2405.17829, 2024.
代码数据:
https://github.com/jinhojsk515/LDMol
欢迎在评论区分享您对潜空间扩散模型的看法或应用经验。如果您对 AI 药物发现和文本到分子生成感兴趣,欢迎关注 MindDance 公众号获取更多前沿内容,也欢迎将文章分享给您的同行。