近年来,冷冻电镜(cryo-EM)已经成为解析生物大分子三维结构的核心实验手段之一。与依赖结晶的传统方法不同,单颗粒冷冻电镜可以直接从实验图像中重建结构,为研究复杂、柔性或动态结构提供了重要工具。
但在实际数据处理中,冷冻电镜的实验数据极其嘈杂、信息不完整,三维结构的重建本质上是一个高度不适定的逆问题。
在当前的冷冻电镜数据三维重构中,常见的改进手段主要有两类:
与此同时,EMDB 中已经积累了数以千计的高质量冷冻电镜密度图,蕴含着丰富但尚未被充分利用的结构先验信息。
一个自然的问题是:能否训练一个模型,从这些真实实验数据中学习“什么样的密度图是合理的”,并在数据处理过程中真正发挥作用?
CryoFM:用生成式模型,真正“帮实验数据说话”
近日,字节跳动 Seed 团队提出了 cryoFM ——一个直接在冷冻电镜密度图空间中训练的生成式基础模型。

CryoFM 的核心思路并不是“生成”结构,而是作为一个可复用的结构先验,服务于实验数据的解析过程:
这种方式使得模型不再是一个“黑箱增强器”,而是能够在先验知识与实验信息之间进行可控平衡。

在真实任务中,cryoFM 能做什么?
研究人员系统评估了 cryoFM 在多种真实和合成场景中的表现,包括:


值得一提的是,研究团队在超过 10 个单颗粒冷冻电镜数据集上进行了系统评估,覆盖空间噪声不均匀、存在优势取向等多类具有挑战性的场景;在这些条件下,cryoFM 在三维重构的任务上均展现出稳定的改进效果。
不只是 cryo-EM
更重要的是,这项工作展示了一种生成式模型的不同用法。相比于将生成模型用于“设计”或“生成”结构,cryoFM 证明了生成式模型也可以作为实验推断中的概率先验,直接参与对实验数据的解析过程。
许多实验技术都面临类似的问题:观测间接、噪声较大、需要在有限信息下推断结构或状态。CryoFM 提供了一种思路:将生成式模型嵌入到推断流程中,用数据驱动的先验帮助实验数据“说清楚它真正支持什么”。
小结
CryoFM 是一个面向冷冻电镜实验数据分析的生成式基础模型,在多种数据处理与分析任务中都展现出稳定而一致的改进效果。
通过将生成式模型作为可控的先验引入推断过程,cryoFM 展示了生成式 AI 不仅可以“生成”,也可以服务于实验数据的解析与理解。
开源与更多信息
📄 论文(bioRxiv):
🌐 项目主页:
💻 模型与代码: