
加星标,再也不怕错过更新!方法见文末动图。


长期以来,intrinsically disordered regions(IDRs)因缺乏稳定三维结构而被认为难以系统分类,但大量证据表明它们在核内组织、转录调控及疾病发生中具有核心功能,那么高度序列多样的 IDR 是否仍然遵循可被量化、可跨蛋白比较的“分子语法”?来自华盛顿大学圣路易斯分校的Rohit V. Pappu团队联合Dana-Farber癌症研究所Cigall Kadoch团队在近期发表在Cell上的文章Molecular grammars of predicted intrinsically disordered regions that span the human proteome中通过无监督算法NARDINI+,在全人类蛋白组尺度上系统解析 IDR 的非随机序列特征,并构建了覆盖整个人类IDRome的语法分类框架。
为了系统地解读这些语法,研究人员首先开发了NARDINI+算法。在研究团队之前的研究中,已经利用Barnase 模型证明,未折叠蛋白并非均一的随机高分子,而是通过特定的序列特征(如芳香族“粘性”残基)驱动相分离并特异性招募伴侣蛋白,直接证实了 IDR 的序列语法决定了其物理化学行为与亚细胞定位1。进一步,团队开发的FINCHES 进一步从物理化学层面证实,基于序列的“化学特异性”(如电荷密度、疏水模式)可以利用分子力场参数准确预测 IDR 的相互作用与相行为2。这项工作表明直接从序列解析分子间作用力是可行的。
具体而言,NARDINI+将每个IDR序列转化为一个包含90个特征维度的Z-score向量(ZSV)(图1A),用于量化两类特征:一类是氨基酸及理化属性的组成特征,另一类是这些残基在序列中分布方式的排列特征,并定义当某一特征的Z score ≥ |1| 时,该特征即被视为“非随机(exceptional)”,并构成该IDR的语法元素(图1B-C)。所有特征均相对于全人类IDRome的背景分布转化为 Z score,用以衡量其偏离随机序列的程度(图1D)。
这90个特征包括54个组成特征(如特定氨基酸的比例、电荷性质等)和36个模式特征。所谓的模式特征,是通过将氨基酸分为极性、疏水、正电荷、负电荷、芳香族等8类,计算每一对类型之间是倾向于“混合”还是“分离”(图1E-G)。通过这一方式,每一条IDR都被表示为一个包含90个维度的Z score向量(Z-score vector, ZSV),从而实现不同IDR之间的直接比较(图1H)。
基于这些ZSV,作者对长度在100–300 aa之间的IDR进行无监督聚类分析,最终确定30 个聚类最能在复杂度与解释力之间取得平衡,并把他们被定义为GIN(Grammars Inferred using NARDINI+),代表覆盖整个人类IDRome的基本语法类型(图1I)。
在GIN中,各聚类呈现出高度一致且可区分的Z score模式,例如富含Lysine的block型排列、以Arginine patch为特征的高电荷密度区,或长段酸性残基富集的负电区(图1J-L)。这些模式并非人为设定,而是从全蛋白组数据中自发涌现,表明 IDR 的序列空间在统计意义上具有明确的结构性。

图1. NARDINI+算法流程与人类蛋白质组IDR分子语法基集的构建
进一步,作者希望探究这些被分类的GIN聚类是否具有生物学意义。通过与人类蛋白质图谱(Human Protein Atlas, HPA)的数据进行交叉分析,他们发现特定的GIN聚类在特定的亚细胞结构中显著富集。作者将GIN cluster与Human Protein Atlas中的亚细胞定位数据进行整合分析(图2A),比较不同语法类型的IDR在核仁、核斑、核质等核内区室中的分布情况。结果显示,不同GIN cluster的IDR并非随机分布,而是对特定核内区室表现出显著偏好(图2B)。
为了验证这种关联是否仅停留在统计层面,作者进一步在非洲爪蟾(Xenopus laevis)卵母细胞的生发泡(GV)体系中进行了成像实验(图2C)。他们选取了一些在HPA中定位信息模糊的蛋白质,仅根据其IDR所属的GIN聚类来预测其定位。实验结果显示,携带不同 IDR语法的荧光融合蛋白在核仁与核斑中的富集程度与其GIN归属高度一致(图2D-E)。
更进一步,作者通过结构域互换实验,在保持蛋白折叠结构不变的前提下,仅替换两种结构相似但定位不同的蛋白GPatch3与GPatch4的IDR区段,就足以显著改变两者的核内定位偏好(图2F-H)。这一结果明确表明:IDR的分子语法本身,而非蛋白整体,是编码核内空间定位的重要决定因素。

图2. IDR分子语法如何决定蛋白质在核内亚区室的定位
接下来,作者想知道IDR语法对蛋白功能的影响。作者首先对不同GIN cluster中蛋白的分子功能进行系统性注释分析(图3A)。结果显示,与RNA结合、转录调控和染色质相关的功能在不同语法类型之间呈现出显著差异。高电荷密度、特定排列模式的IDR更倾向于出现在RNA结合蛋白中,而其他语法类型则更多分布于结构或调控因子(图3B)。不同的生物学过程也有不同的IDR语法,例如参与染色质组织的蛋白质富集Cluster 18(大片段负电荷与正电荷块共存)的IDR;参与mRNA代谢的蛋白质则富集Cluster 26(R-patches)(图3C)。
为了检验这种语法—功能关联是否在系统层面成立,作者引入了DepMap项目中的大规模CRISPR敲除数据(图3C)。该数据集记录了上百种癌细胞系中基因缺失对细胞适应度的影响。如果两个基因在敲除后对细胞生存产生相似的影响,它们往往在功能上相关。分析结果显示,具有相同或相似IDR语法的蛋白,其适应度变化在不同细胞系中呈现出更高的相关性(图3D)。这意味着这些蛋白更可能参与同一功能模块或调控网络。

图3. IDR语法与分子功能及功能网络的对应关系
作者将视角聚焦于三个核内区域:核仁、核斑和核质,剖析了IDR语法如何参与这些区域内复杂生化过程的精细时空调控(图4A-B)。作者通过分析核糖体合成过程发现,Cluster 23 IDR (K-blocks)主要参与早期过程(如rDNA 转录、rRNA修饰);而Cluster 18 IDR则更多参与晚期组装过程(图4C-D),说明细胞通过IDR的电荷模式差异,将不同功能的蛋白分到核糖体组装过程中的不同位置。

图4. 亚细胞核区域富集的GIN簇与特定生物学过程的关联
作者统计了人类蛋白中IDR的数量分布,并将多IDR蛋白中各个IDR的GIN归属进行组合分析(图5A)。在核糖体 DNA (rDNA) 转录的起始、延伸和终止阶段,关键蛋白(如 POLR1F, UBTF)含有极其显著的Cluster 23 (Pos-Pos Z score 极高) 特征(图5B)。进化树分析显示,这些极端的语法特征在亿万年的进化中被保留了(图5C-D)。这些“极端”IDR是相分离和招募特定伙伴的关键驱动力(图5E-H)。

图5. 参与早期生物发生过程及核心复合物的蛋白质具有特殊的分子语法
对于结构相似但是功能不同的RNA聚合酶I(Pol I)与RNA聚合酶II(Pol II),他们的IDR使用了不同的分子语法来确保互不干扰,并且这种差异在进化上是高度保守的(图6A-B)。Pol I的亚基(如POLR1F)富含Cluster 23的IDR(正电荷块),而其转录复合物中的伙伴蛋白(如UBTF)则富含Cluster 7的IDR(负电荷块)。全原子模拟显示,这种正负电荷块之间的互补作用能产生特异性的吸引力,促进Pol I机器的组装(图6C)。Pol II的CTD(C末端结构域)属于Cluster 28,特征是芳香族残基(Tyr)的均匀分布 。而Pol II的转录伙伴(如Mediator复合物)则富含Q-tracts(Cluster 11)。模拟表明,Gln残基与Pol II的芳香族/极性残基之间存在互补相互作用(图6D)。

图6. RNA聚合酶I和II具有特殊且截然不同的IDR分子语法
作者在最后使用IDR的语法证明IDR的语法错误和疾病发生相关。研究者统计发现有超过50个致癌基因含有全基因组Top 80的“极端”IDR。这暗示了维持这些极端语法的完整性对细胞健康至关重要(图7A-B)。在那些具有“块状电荷”特征的IDR中,插入/缺失突变 (Indels) 的发生率异常高。例如MAML2蛋白,其IDR原本拥有极长的Poly-Q序列,但在林奇综合征相关肿瘤中,这段Q区域经常发生缺失,导致相互作用价态改变(图7C-D)。除此之外,染色体易位产生的融合癌蛋白(Fusion Oncoproteins, FOs)经常发生IDR替换,比如MEF2D融合蛋白,原本的IDR被换成了另一个蛋白的IDR。这种“语法交换”会导致蛋白招募错误的合作伙伴(Co-factors),从而导致基因表达失调,引发癌症(如白血病)(图7E-H)。

图7. 癌症突变对特定GIN簇中特殊IDR分子语法的破坏作用
总的来说,这项研究的核心贡献在于利用NARDINI+算法构建了GIN资源库,通过量化氨基酸组成和非随机排列模式,将人类蛋白质组中的预测IDR系统地划分为30个独特的分子语法簇。该方法目前聚焦于“标准状态”下的IDR序列特征,虽暂未纳入翻译后修饰或细胞内环境因素,但研究者提供了开放的Google Colab工具支持用户进行自定义序列分析。作为一种无需依赖复杂构象系综模拟即可预测序列-功能关系的高效计算策略,该方法与现有的进化分析手段互补,为全蛋白质组范围内的IDR功能研究提供了新的理论框架和工具。
参考文献
1.Ruff, K. M. et al. Sequence grammar underlying the unfolding and phase separation of globular proteins. Molecular Cell 82, 3193-3208.e8 (2022).
2.Ginell, G. M. et al. Sequence-based prediction of intermolecular interactions driven by disordered regions. Science 388, eadq8381 (2025).
供稿 | 吴其乐
责编 | 囡囡
设计 / 排版 | 可洲