
DRUGONE
研究人员提出了一种基于伪数据(pseudodata)的分子结构生成模型,用于探索真实世界中尚未被实验或数据库记录的未知化学物质。该方法通过从实验质谱谱图中自动构建大规模、无标签的伪数据集,使模型能够直接从真实化学信号中学习结构模式,而无需依赖现有数据库的有限覆盖范围。生成模型能够产生与真实化学空间一致但未被数据库收录的新型结构,从而支持未知化合物的解码、物质鉴定以及环境化学监测。研究人员通过模拟实验与真实质谱验证展示该框架的有效性,证明其生成的化学结构与潜在真实物质高度一致,为未知化学空间挖掘提供了新的可能。

化学数据库中的已知分子数量有限,尽管自然界和人工体系可能包含数十亿种未被发现的化学物质。现代实验技术特别是质谱能够捕获许多未被记录的化学信号,但由于缺乏相应结构信息,这些潜在分子无法被准确解析。
现有分子生成模型通常依赖数据库训练,因此只能在“已知化学结构”范围内推断,而难以外推到未知结构域。另一方面,真实实验中未注释的质谱数据数量巨大,但不具备结构标签,无法直接用于监督学习。
为弥合这一鸿沟,研究人员提出“伪数据(pseudodata)”概念:即利用质谱信号与规则生成策略构建大规模近似真实但无标签的结构—谱图对,并用其训练生成模型使其具备探索未知结构空间的能力。该框架允许模型从真实世界实验数据学习化学规律,从而产生更具真实性与多样性的分子结构。
方法
研究人员构建了一个由三部分组成的分子生成与校准框架:
从真实质谱数据中提取片段模式与质量分布,利用规则化策略构建与真实信号一致的伪结构数据,使模型能从实验数据中学习更丰富的结构特征。
采用深度生成式神经网络(包括图生成与序列生成两类),在大规模伪数据上训练,使其能够产生化学合理、结构多样且覆盖未记录化学空间的候选分子。
生成结构被输入到谱图预测模型,与真实实验谱图进行匹配,用于筛选可能对应未知化合物的结构候选。
该流程无需人工标注,可对海量未解释的实验数据进行结构探索。

结果
伪数据增强生成模型的未知化学空间探索能力
与真实质谱信号的一致性验证
研究人员在环境样本与代谢样本的真实质谱数据上进行验证:

局部结构规则与生成可解释性分析

讨论
本研究提出的伪数据驱动框架,为未知化学物质探索提供了一种全新的数据源与模型训练策略。通过从真实质谱信号中构建无标签但富含结构特征的伪数据,模型能够更接近真实世界的化学规律,突破数据库局限,探索更多未被记录的天然或环境化合物。
这一方法具有多个优势:
未来方向包括:
总体而言,该框架为未知化学物质的发现提供了重要工具,有望促进环境毒性物质识别、代谢组学未知峰解析以及自然产物挖掘等关键领域的发展。
整理 | DrugOne团队
参考资料
Yu, N., Ma, Z., Shao, Q. et al. Pseudodata-based molecular structure generator to reveal unknown chemicals. Nat Mach Intell (2025).
https://doi.org/10.1038/s42256-025-01140-5
内容为【DrugOne】公众号原创|转载请注明来源