

在结构生物学与药物研发的交叉领域,生物分子结构预测的精度与效率直接决定了基础研究的推进速度和产业转化的落地周期。自AlphaFold2实现蛋白质单体结构的实验级预测以来,领域内的研究焦点逐渐转向更复杂的生物分子相互作用(如蛋白-配体、蛋白-核酸结合)及模型的规模化扩展。字节跳动Seed团队于2025年12月发布的SeedFold模型,通过创新性的模型缩放策略、高效注意力机制设计及大规模蒸馏数据集构建,在FoldBench基准测试中多项指标超越AlphaFold3,为生物分子基础模型的发展提供了全新范式。本文将从技术原理、核心创新、性能验证及领域影响四个维度,深度解析这一研究。

生物分子结构预测的核心价值在于揭示分子功能的结构基础,为药物靶点筛选、抗体设计、酶工程等应用提供支撑。尽管AlphaFold3实现了蛋白质、DNA、RNA及配体的统一建模,但现有模型仍面临三大核心瓶颈:
大多数折叠模型的缩放策略多聚焦于增加Pairformer层数(深度缩放),但AlphaFold的循环机制(训练阶段3次、推理阶段9次)已形成等效深层架构,进一步增加物理层数的边际收益递减。研究发现,成对表示的隐藏维度(AlphaFold系列为128)才是限制模型特征表达能力的关键瓶颈,无法充分编码复杂的分子间相互作用。
AlphaFold3中Pairformer的三角注意力机制计算复杂度随分子长度呈立方增长(O(n³d)),导致长序列分子(如长链蛋白质、复杂复合物)的预测面临严重的内存与时间开销,难以满足大规模应用需求。
实验测定的生物分子结构(如PDB数据库)远无法满足深度学习模型的训练需求。AlphaFold3用通用Transformer替代了AlphaFold2的不变置换注意力(IPA)模块,虽提升了建模灵活性,但丧失了旋转和平移不变性等归纳偏置,在数据不足时泛化能力显著下降。
SeedFold针对上述痛点,从模型、架构、数据三个维度构建规模化解决方案,实现了预测精度与计算效率的双重突破。
SeedFold团队通过系统性实验验证了三种模型缩放路径的有效性,最终确立了以Pairformer宽度缩放为核心的扩展策略:


成对表示维度的提升直接增强了模型编码分子间复杂相互作用的能力,这与DeepSeek-V3(671B参数,隐藏维度7168)的设计理念一致——在足够深的架构基础上,宽度扩展是提升模型容量的更高效路径。而结构模块的深度缩放收益有限,因其核心功能是将成对表示转换为原子坐标,而非特征学习。
为解决三角注意力的立方级复杂度瓶颈,SeedFold提出线性三角注意力(LinearTriangularAttention),通过融合大语言模型的线性注意力技术与折叠模型的几何推理需求,实现复杂度从O(n³d)到O(nd²)的量级降低:
softmax(QK^T+B)V重构为φ(Q)φ(K^T)□ψ(B)V,保留几何推理必需的偏置项B;+运算融合偏置项,继承原始注意力的优势,内存占用可分摊;⊙运算(sigmoid门控)控制信息流动,在核酸相关任务中表现更优,配合Triton内核优化实现内存高效计算。

实验显示,线性注意力与原始注意力在多数任务上性能相当,且峰值内存占用和计算时间显著降低(如图3所示),为长序列分子预测提供了可行性。门控型变体在蛋白-RNA、蛋白-DNA相互作用预测中表现突出,验证了其处理多样化分子类型的能力。

为解决实验数据稀缺问题,SeedFold构建了由实验数据和蒸馏数据组成的混合训练集,总规模达26.5M(是实验数据集0.18M的147倍):
数据集 | 类型 | 样本量 | 权重 | 核心作用 |
|---|---|---|---|---|
PDB | 实验 | 180,540 | 0.50 | 保证基础数据质量,提供真实结构约束 |
AFDB | 蒸馏 | 3,326,991 | 0.08 | 补充短链单体结构(中位长度95),提升基础折叠能力 |
Mgnify | 蒸馏 | 23,075,211 | 0.42 | 提供高多样性长序列(中位长度435),仅200万样本与AFDB重叠 |
宽度缩放带来的训练不稳定性(梯度爆炸、损失坍塌)通过以下技术解决:
SeedFold在包含1522个生物组装体的FoldBench基准测试中,覆盖9类预测任务(单体、蛋白-蛋白、抗体-抗原、蛋白-配体等),大多数展现出state-of-the-art性能:

通过累积分布曲线(图4)可见:



SeedFold通过 宽度缩放+线性注意力+大规模蒸馏 的三位一体策略,实现了生物分子结构预测的精度与效率双突破,其核心创新不仅在于超越AlphaFold3的性能表现,更在于为生物分子基础模型的规模化发展提供了清晰的技术路径。该研究验证了大语言模型的缩放理念在生物计算领域的适用性,同时结合领域特性进行了架构与数据的定制化设计,为跨学科融合提供了典范。
参考文献:Yi Z, Chan L, Yiming M, et al. SeedFold: Scaling Biomolecular Structure Prediction[J]. arXiv preprint arXiv:2512.24354, 2025.
项目链接:https://seedfold.github.io/