首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Mach. Intell. | 基于伪数据的分子结构生成模型:揭示未知化学物质

Nat. Mach. Intell. | 基于伪数据的分子结构生成模型:揭示未知化学物质

作者头像
DrugOne
发布2025-11-17 21:06:18
发布2025-11-17 21:06:18
1080
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

研究人员提出了一种基于伪数据(pseudodata)的分子结构生成模型,用于探索真实世界中尚未被实验或数据库记录的未知化学物质。该方法通过从实验质谱谱图中自动构建大规模、无标签的伪数据集,使模型能够直接从真实化学信号中学习结构模式,而无需依赖现有数据库的有限覆盖范围。生成模型能够产生与真实化学空间一致但未被数据库收录的新型结构,从而支持未知化合物的解码、物质鉴定以及环境化学监测。研究人员通过模拟实验与真实质谱验证展示该框架的有效性,证明其生成的化学结构与潜在真实物质高度一致,为未知化学空间挖掘提供了新的可能。

化学数据库中的已知分子数量有限,尽管自然界和人工体系可能包含数十亿种未被发现的化学物质。现代实验技术特别是质谱能够捕获许多未被记录的化学信号,但由于缺乏相应结构信息,这些潜在分子无法被准确解析。

现有分子生成模型通常依赖数据库训练,因此只能在“已知化学结构”范围内推断,而难以外推到未知结构域。另一方面,真实实验中未注释的质谱数据数量巨大,但不具备结构标签,无法直接用于监督学习。

为弥合这一鸿沟,研究人员提出“伪数据(pseudodata)”概念:即利用质谱信号与规则生成策略构建大规模近似真实但无标签的结构—谱图对,并用其训练生成模型使其具备探索未知结构空间的能力。该框架允许模型从真实世界实验数据学习化学规律,从而产生更具真实性与多样性的分子结构。

方法

研究人员构建了一个由三部分组成的分子生成与校准框架:

  • 伪数据生成模块

从真实质谱数据中提取片段模式与质量分布,利用规则化策略构建与真实信号一致的伪结构数据,使模型能从实验数据中学习更丰富的结构特征。

  • 分子结构生成模型

采用深度生成式神经网络(包括图生成与序列生成两类),在大规模伪数据上训练,使其能够产生化学合理、结构多样且覆盖未记录化学空间的候选分子。

  • 实验数据校准与筛选模块

生成结构被输入到谱图预测模型,与真实实验谱图进行匹配,用于筛选可能对应未知化合物的结构候选。

该流程无需人工标注,可对海量未解释的实验数据进行结构探索。

结果

伪数据增强生成模型的未知化学空间探索能力

  • 与仅在数据库训练的模型相比,伪数据增强模型生成的结构更加多样化,并显示出显著的“分布外(out-of-distribution)”能力。
  • 使用分布可视化工具(如 t-SNE)表明:生成分子覆盖范围远超公开数据库,形成连续、合理的扩展化学空间。
  • 模型自动学习到实验质谱中的碎片化模式,从而生成具有真实质谱特征的分子结构。

与真实质谱信号的一致性验证

研究人员在环境样本与代谢样本的真实质谱数据上进行验证:

  • 生成的分子结构与真实实验 m/z 信号高度一致。
  • 在未被任何数据库收录的未知峰上,框架成功生成多个候选结构,其预测碎片图与实验图高度吻合。
  • 专家分析进一步确认其中部分结构具有化学合理性与潜在存在性。

局部结构规则与生成可解释性分析

  • 模型能够复现实验中常见的官能团组合与碎片化特征,例如羟基迁移、糖苷键断裂模式等。
  • 相较于传统生成模型,该框架保留了更多“真实化学反应—碎片化模式”的统计规律,使得生成结构更贴近真实物质。
  • 对比实验显示,若不使用伪数据,模型会产生大量不符合实验谱图的假结构,而伪数据训练可显著减少此类不一致。

讨论

本研究提出的伪数据驱动框架,为未知化学物质探索提供了一种全新的数据源与模型训练策略。通过从真实质谱信号中构建无标签但富含结构特征的伪数据,模型能够更接近真实世界的化学规律,突破数据库局限,探索更多未被记录的天然或环境化合物。

这一方法具有多个优势:

  • 无需结构标签,可利用海量真实实验数据
  • 生成分子更具真实性与化学合理性
  • 有助于未知物质的快速假设生成与结构筛选
  • 可扩展至环境监测、代谢组学、天然产物研究等多领域

未来方向包括:

  • 改进伪数据生成策略,引入更多反应化学知识;
  • 与实验自动化平台结合,实现未知化合物的全自动结构搜索;
  • 扩展到多模态数据(NMR、UV、IR)以提升结构解析能力。

总体而言,该框架为未知化学物质的发现提供了重要工具,有望促进环境毒性物质识别、代谢组学未知峰解析以及自然产物挖掘等关键领域的发展。

整理 | DrugOne团队

参考资料

Yu, N., Ma, Z., Shao, Q. et al. Pseudodata-based molecular structure generator to reveal unknown chemicals. Nat Mach Intell (2025).

https://doi.org/10.1038/s42256-025-01140-5

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档