Nat. Commun.｜利用AlphaFold确定内在无序蛋白原子分辨率构象集合

DrugOne

发布于 2026-03-02 19:18:35

860

文章被收录于专栏：DrugOneDrugOne

内在无序蛋白(IDP)在生物系统中广泛存在，并在多种生物过程和疾病中发挥关键作用。尽管近年来高分辨率结构生物学技术取得了进展，基于深度学习的蛋白质结构预测也取得了突破，但在原子分辨率下准确确定IDP的结构集合仍然是一项重大挑战。

针对上述问题，巴黎西岱大学研究人员于2026年2月5日在《Nature Communications》期刊上发表文章，题为“Atomic resolution ensembles of intrinsically disordered proteins with Alphafold”。

研究提出了一种名为bAIes的贝叶斯框架，将AlphaFold2预测与理化分子力学力场相结合，以生成准确的IDP原子分辨率构象集合。bAIes生成的结构集合能够在多种不同体系中匹配广泛的高分辨率和低分辨率实验数据，其精度可与全原子分子动力学模拟相媲美。此外，bAIes的性能优于基于粗粒化势能的最先进IDP模型以及深度学习方法。

bAIes代码仓库：

https://github.com/plumed/plumed2

背景

内在无序蛋白(IDP)及其无序区域约占人类蛋白质组的三分之一，并在许多生物系统中发挥关键作用。然而，由于其内在的动态特性，这类蛋白极难进行结构表征。IDP不会采用单一稳定结构，而是在广泛的构象空间中不断采样。近年来，通过发展用于分子动力学(MD)模拟的粗粒化模型，在这一目标上已取得显著进展。尽管粗粒化模型效率很高，但其分辨率不足以捕捉IDP的精细局部构象性质和二级结构倾向，而这些特征对于理解识别与结合机制以及解析核磁共振(NMR)等高分辨率实验至关重要。同时，在药物发现领域，对高通量生成原子级IDP模型的需求也在不断增加。实现这种精度通常需要大量高分辨率实验数据以及全原子显式溶剂MD模拟。然而，尽管IDP专用力场和高效溶剂化模型已有进展，MD方法仍受限于高昂的计算成本和力场精度问题。因此，目前与实验数据一致的IDP构象集合数据库仍然稀缺，这既限制了我们对IDP构象能量景观的理解，也制约了能够生成原子分辨率精确集合的深度生成模型的发展。

深度学习的最新进展，尤其AlphaFold2(AF2)通过利用蛋白质数据库(PDB)数据和多序列比对(MSA)中的共进化信息，从氨基酸序列预测高精度蛋白质结构，已经彻底改变了结构生物学。尽管IDP缺乏强序列保守性，从而限制了基于MSA的预测，但AF2在这一背景下仍表现出重要价值。它能够预测无序性，通过pLDDT分数识别条件性折叠，并为结合机制提供见解。AF2还输出残基间距离分布(distogram)，该分布既反映AF2预测的局部置信度，也可能反映局部动力学，从而有助于构象集合建模。这引发了利用AF2生成IDP构象集合的日益增长的兴趣，包括基于MD模拟训练的深度学习模型。然而，AF2在构象集合生成方面的可靠性仍存在争议，需要通过多种高、低分辨率实验数据进行系统验证。

方法

bAIes是一种贝叶斯建模框架，通过结合随机线团模型与AF2提供的结构信息，在原子分辨率下生成准确的IDP构象集合。

为评估AF2提供的信息量，首先开发了一种高效方法来生成IDP构象集合，以作为结构先验。具体而言，构建了一个随机线团模型，该模型不包含任何构象偏好或二级结构倾向，使IDP理论上能够探索聚合物链的全部构象空间。线团模型基于一个修正的原子级力场，仅包含成键相互作用(键长、键角和二面角)、校正后的主链二面角分布以及排斥性的范德华项(图1a,b)。

图1 bAIes框架

在整合结构生物学中，基于贝叶斯统计的建模方法通过所谓的数据似然，将实验数据与先验理化知识相结合。这些似然最终会转化为额外的结构约束，并被加入标准分子力学力场(即先验)中，以强制模型与实验数据保持一致。在bAIes中，数据似然由AF2的distogram建模而来，distogram是Cβ原子(甘氨酸为 Cα)之间的距离分布。为整合AF2 distogram提供的结构信息，bAIes使用每对选定残基的一维高斯分布来构建似然函数(图1c,d)。所选残基对对应于残基间接触。最后，由这些高斯似然推导出的AF2距离依赖项通过开源PLUMED库在模拟过程中动态加入到先验随机线团模型中(图1e)。

结果

bAIes在无序谱范围内捕捉构象偏好

无序蛋白和无序区的行为并不总能被随机线团模型完全描述。不同程度的二级结构倾向常会导致瞬时接触和螺旋基序的形成，而这些对于执行特定生物功能至关重要。AF2对PaaA2的预测准确识别了特定基序(图2g)，并且即使在两段螺旋之间高度柔性的区域也表现出很高的置信度。bAIes构象集合正确捕捉了该蛋白的柔性特征(图2h)，这从与实验NMR化学位移、RDC和SAXS数据的比较中得到验证(图2i–k)。分析显示与纯随机线团模型相比，bAIes与实验数据的一致性有明显提升。

图2 跨越无序谱的bAIes：从随机线团到部分有序蛋白

bAIes对AlphaFold预测误差具有鲁棒性

作者考察α-synuclein，这是一种与帕金森病相关的IDP。尽管该蛋白在溶液中高度无序，AF2却在其N端结构域预测出一段长达90个残基的螺旋(图3a)。α-synuclein的bAIes构象集合仍与现有实验数据保持合理一致(图3b–e)。仅使用随机线团模型就已很好捕捉到α-synuclein在残基层面的构象采样偏好(图3c,e)。在bAIes中引入AF2信息后，这种一致性仅受到轻微影响；仅在N端区域观察到α-螺旋倾向略微增加，这体现在二级化学位移和RDC的轻微上升。加入AF2信息后，与SAXS数据的一致性反而有所改善。综合来看，这些结果表明bAIes对AF2预测误差具有良好鲁棒性，这得益于其通过可变宽度的高斯似然对AF2不确定性进行了显式建模。

图3 bAIes噪声模型使其对预测误差具有鲁棒性

bAIes与最先进IDP模型的竞争力

研究团队分析了使用CHARMM36m、CHARMM22*和amber99SB-disp力场，在Anton专用超级计算机上进行30 μs模拟所生成的Aβ40、PaaA2、α-synuclein和ACTR的大型构象集合。总体而言，bAIes构象集合的精度与原子级MD模拟相当(图4a)。值得注意的是，在整个基准集中，bAIes的表现优于两个CHARMM力场，与实验数据的一致性更高。与通常被认为是IDP最先进力场的amber99SB-disp相比，其性能总体相当。除了传统全原子MD，还与粗粒化模型CALVADOS2和新兴深度学习方法BioEmu进行了比较。尽管这些方法在速度上具有明显优势，但bAIes在与实验数据一致性方面始终更优(图4a)。

图4 bAIes构象集合相对于最先进IDP模型的精度

从bAIes到整合式IDP构象集合

使用最大熵重加权技术，对ACTR、α-synuclein、Aβ40和PaaA2的bAIes构象集合进行基于NMR和SAXS数据的精修。该方法通过最小幅度调整先验集合的构象权重，以提高与溶液实验数据的一致性。在所有体系中，重加权后的bAIes集合均优于经CHARMM36m和CHARMM22* 精修的集合(图5a)。与amber99SB-disp相比，bAIes的相对精度在重加权后保持不变，其中Aβ40和ACTR仍更准确，说明该方法与经典全原子模拟一样能从重加权中获益。此外，除Aβ40(BioEmu最佳)外，重加权后的bAIes仍优于CALVADOS2和BioEmu。ACTR是一个AF2二级结构预测存在误差的案例，但无论重加权前后，bAIes与amber99SB-disp的整体一致性均具有竞争力，相关谱形也高度相似(图5d–f)。

图5 IDP构象集合的最大熵重加权

多结构域蛋白的bAIes构象集合

生成了三种MDP的构象集合：GS8 GFP嵌合体、二聚泛素(Ubq2)和三聚泛素(Ubq3)。结果显示折叠结构域均被AF2正确预测并在bAIes集合中保持，柔性连接区得到高效采样，无需额外约束即可维持折叠结构(图6a–c)。尽管bAIes仅使用AF2信息，其与实验SAXS的一致性仍超出预期(图6d–f)。尽管bAIes最初并非为多结构域蛋白设计，这些结果表明其具有良好潜力。

图6 多结构域蛋白的bAIes构象集合

总结

作者提出了一种贝叶斯框架bAIes，利用AF2提供的结构信息来生成IDP的高精度原子级构象集合。在一系列具有不同残余结构水平的IDP上，bAIes的精度可与原子级分子动力学模拟相当，并优于粗粒化方法和基于深度学习的方法。

该方法以及AlphaFold-Metainference和BioEmu的局限性在AF2为IDP预测出折叠态时会显现。这些误判源于AF2并未被设计用于考虑环境对蛋白折叠的影响。解决这一问题要么需要在标准化条件下表征的蛋白上训练结构预测模型，要么开发能够显式纳入环境参数的模型，而这两种方案目前都受限于实验数据的匮乏。此外，AF2在捕捉某些瞬态分子内接触方面本身存在局限，而这些接触往往至关重要，并且更适合通过PRE和FRET等实验技术捕获。类似地，在缺乏实验数据且AF2未提供相关信息时，bAIes在恢复残余二级结构方面也可能受到限制。改进模型的一条潜在途径是，在随机线团模型中引入额外能量项，以描述AF2未能捕捉的结构特征。其中一种策略是参数化残基特异性势函数，类似于现代IDP粗粒化模型中的实现方式。此外，将bAIes与增强采样技术(如metadynamics)相结合，可以促进对常规模拟中很少采样到的构象空间区域的探索。另一种应对多构象状态存在的思路是利用通过修改多序列比对(MSA)运行AF2所生成的多个distogram。可以设想bAIes的未来扩展版本，将来自不同MSA的多个distogram纳入其中，从而更好地捕捉IDP构象景观中低丰度的折叠态。

展望未来，随着AlphaFold3和Boltz2等结构预测工具数量的不断增加，该方法的应用范围有望进一步扩大。例如，bAIes可用于建模动态RNA分子、高效采样蛋白结合口袋中的小分子构象，或研究翻译后修饰对IDP结构性质的影响。

参考链接：

Schnapka, V., Morozova, T.I., Sen, S. et al. Atomic resolution ensembles of intrinsically disordered proteins with Alphafold. Nat Commun (2026).

https://doi.org/10.1038/s41467-026-69172-y

--------- End ---------

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-02-27，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习