DRUGAI
蛋白质结构预测取得了显著进展。然而,预测涉及多种生物分子的复杂结构(如蛋白质-配体、蛋白质-核酸和抗体-抗原相互作用)仍面临额外的挑战。最近的研究已专注于这些复杂的预测任务。其中,AlphaFold 3 (AF3) 已设立了新的里程碑,代表了该领域的重大进步。尽管AF3取得了显著的进展,其有限的可访问性限制了在研究界的广泛应用。AF3论文中部分描述存在模糊及印刷错误,也为希望复现或改进模型的机器学习和计算生物学研究者带来了挑战。开源项目已为使这些先进模型的普及做出了重要贡献,但缺乏完整的训练代码和预处理数据仍然是研究人员复现和充分利用这些模型的障碍。为应对这些挑战,ByteDance AML AI4Science团队推出了Protenix,旨在降低这些门槛,并更好地支持跨学科研究社区。
以下是ByteDance AML AI4Science团队的主要贡献概要:
方法
数据管道
纳入不同类型的生物分子为数据整理和特征化带来了巨大挑战。研究人员详细分析了AF3的补充材料以复现数据管道。以下列出了在实现中的主要差异。
解析器。在选择替代位置时,研究人员使用第一个占据位置,而非最大占据位置。因为使用最大占据位置可能导致一些相邻残基采用不同构象,阻碍共价键的形成,导致链断裂。
多序列比对 (MSA)。研究人员使用MMSEQS2和ColabFold MSA管道进行MSA搜索,并从Uniref100数据库中提取用于配对的MSA(物种通过分类ID进行识别)。对于核酸链,不使用MSA。
模板。研究人员不使用模板。
特征化。
裁剪。对裁剪方法的实现考虑了以下方面:
模型与训练
纠正与调整。在对原始论文中算法的分析中,研究人员发现了若干错误和模糊之处。部分调整对性能至关重要。此外,研究人员对置信度头进行了轻微修改,加入了LayerNorm并增加了一些线性层(详见发布的代码)。发现当严格按照原始论文中的描述实现时,置信度损失收敛效果不佳。
参数初始化。研究人员未对不同初始化策略的影响进行广泛分析,但对若干模块采用了零初始化。具体而言,为确保每个残差层在初始化时表现为恒等操作,部分线性层采用零初始化。参照最近的条件扩散模型研究,研究人员在AdaptiveLayerNorm中对两个线性层进行了零初始化。此外,对Pairformer中的N循环连接块也应用了零初始化。经验表明,这些零初始化有助于防止网络权重的维度崩溃,并缓解隐藏值的爆炸问题。
可扩展性。尽管AF3仅包含约3.86亿个参数,但它需要大量计算资源。尤其是其Pairformer块会产生大量中间激活。此外,在训练期间,扩散模块具有较大的扩散批量大小,并对每个原子对应用激活,从而为训练和推理带来了内存瓶颈。为应对这些挑战并提升训练效率,研究人员引入了以下方法:
训练。Protenix在192块GPU上训练了约两周。研究人员还显著简化了超参数,因为训练仅使用了Protein Monomer Distillation数据集,未包括其他蒸馏集。尽管实现了与AF3类似的多阶段训练设置,但模型的训练步数显著减少。在初始阶段训练了75K步,在微调阶段1训练了15K步。微调阶段2仅进行了4K步,可能不足以充分训练置信度头。
结果
Protenix使用从PDB数据库整理的实验结构进行训练,数据截止日期为2021年9月30日,同时结合AlphaFold2和OpenFold预测的蛋白单体结构。研究人员在不同的评估数据集上对Protenix进行基准测试,以评估其在不同类型分子上的表现。由于商业实体对性能基准测试的限制,研究人员无法将Protenix与HelixFold3和Chai-1进行比较。因此,研究人员选择将Protenix的性能与AF3、AF2.3和RF2NA进行对比。
与AF3不同,AF3使用了两个不同数据截止日期(2019年9月30日用于Posebusters,2021年9月30日用于其他数据集)训练了两个独立的模型,而研究人员由于资源限制,选择训练单个模型。为避免数据泄漏,PoseBusters Benchmark Set版本2(PoseBusters V2)中的目标被排除。
对于每个PDB条目,研究人员遵循AF3的推理设置,使用5个模型种子生成25个预测,每个种子生成5个扩散样本。通过置信度评分对预测进行排序
配体
研究人员在PoseBusters Version 2基准测试集上评估了Protenix的性能,并将其与AF3进行比较。为确保对比的一致性和公平性,研究人员遵循了AF3论文中描述的评估程序。
RMSD成功率。成功率定义为预测中与真实值的口袋对齐配体的均方根偏差(RMSD)不超过2 Å的比例。图2[A]显示,Protenix在成功率方面优于AF3-2019,在RMSD和PB-Valid指标上都略有提高。这表明Protenix代表了蛋白-配体共折叠任务的最新技术水平(SOTA)。图2[B]展示了不同RMSD阈值下的成功率,提供了模型性能的更详细视图。Protenix - oracle配置(红色虚线)在所有RMSD阈值下均实现了最高成功率,始终优于AF3-2019的置信度排名(黑色实线)。Protenix - 置信度排名和Protenix - 所有样本配置与AF3的性能相当,显示了Protenix生成高质量蛋白-配体共折叠预测的能力。值得注意的是,所选结果仍然落后于所有样本中的最佳候选项,表明通过更好的样本排序器可能还有改进空间。
相似性分析。Protenix使用2021年9月30日截止的PDB数据训练,因此性能提升可能归因于额外的训练数据。为避免潜在的数据泄漏问题,研究人员从训练集中删除了相同的PDB ID。此外,研究人员进行了相似性分析,如图2[C]和[D]所示。这些图表明,与AF3-2019相比,Protenix在常见配体上的表现更好,可能得益于更多的训练数据。然而,由于在非常见配体上两者表现相同,可以得出结论,Protenix的泛化能力与AF3-2019相当。在目标端,Protenix在高同源组上优于AF3-2019,但在其他目标上略逊一筹。
蛋白质
研究人员将Protenix与当前表现最好的开源模型AF2.3进行基准测试。两个模型均预测每个结构的第一个生物组装体。对于AF2.3,非蛋白链被排除,非标准残基被映射为标准残基,因为该模型不支持这些成分。Protenix预测完整的复合物,但研究人员未评估包含额外链在输入中是否影响性能。结果总结在图1[B]中。
研究人员报告了不同接口类型的DockQ成功率,包括所有蛋白-蛋白界面和蛋白-抗体界面。研究人员报告了Protenix在10次循环后的结果,以及AF2.3 (5x5)在20次循环后的结果,分别提供了最佳(oracle)、中位数和排名第一的预测结果的分数。对于Protenix,蛋白质界面的排序器使用“链对ipTM”置信度。总体而言,Protenix的DockQ成功率高于AF2.3,表明预测准确性有所提高。唯一的例外是蛋白-抗体的情况,在该场景下,Protenix的最高排名预测与AF2.3表现相当,显示出样本排序器方面的改进潜力。
核酸
研究人员将评估范围扩展到RNA和DNA目标,结果显示Protenix在表现上与AF3相当,同时准确性高于RF2NA。Protenix未使用核酸链的MSA。
研究人员在CASP15 RNA目标上评估Protenix,遵循AF3论文中的方法,聚焦于截至2023年12月1日公开的8个目标。研究人员将Protenix的结果与AF3、AIchemy_RNA2和RF2NA进行比较。AIchemy_RNA2的预测结构来自CASP网站,选取LDDT分数最高的结构进行分析。RF2NA的预测结构从Zenodo存储库下载,与原论文一同提供。AF3的指标来自Bernard等人的预印本,其中系统地评估了AF3在RNA预测上的表现,并使用OpenStructure计算LDDT和TM分数。由于AF3的评估基于单个种子,研究人员也报告了Protenix在单个种子下的性能,而非五个种子。每个结构的最高排名样本基于pLDDT进行选择,用于评估。对于RF2NA、AIchemy_RNA2和Protenix,研究人员一致使用OpenStructure重新计算LDDT和TM分数。
如图1[C]和图6所示,Protenix的平均LDDT和TM分数与AF3相似,显著优于RF2NA,但仍落后于AIchemy_RNA2,后者受益于人为输入。
讨论
编译 | WJM
参考资料
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有