预测和分析经受LLPS的分子特性
在特定条件下,蛋白质和核酸可能普遍具有经历LLPS的能力,其中许多可能永远不会在细胞中遇到。这种方式下的LLPS类似于淀粉样物质的形成,这是蛋白质的一种通用状态。重要的是,只有一小部分蛋白质能够在生理条件下形成淀粉样物质,这些特定的形成淀粉样物质的蛋白质在生理以及病理环境中都非常重要。同样,许多蛋白质在生理条件下可能无法接触到LLPS,只有特定的蛋白质序列似乎有能力在生活细胞中存在的条件下进行相分离。目前,我们识别真正和生物学相关的LLPS的能力仍然有限,这应该使我们在解释在体外进行的相分离研究的结果时要小心。
尽管存在这些限制,近年来在理解能在生理条件下进行相分离的分子中常见的分子标志方面取得了巨大的进步。一个非常有用的概念是支架和客户的概念。支架分子被认为是相分离的驱动力,而分配到由支架形成的凝聚物中的分子被称为客户。现在已经认识到,支架蛋白的相分离和客户的分配需要形成一个相互作用的网络,通常是蛋白质之间,经常是蛋白质和RNA之间。两种蛋白质结构的原型促进了这种网络的形成。一种类型的特征是多个折叠域(例如,Nck中的SH3域),它们与其他蛋白质中的短线性动机(SLiMs)(例如,N-WASP中的富含脯氨酸的动机)相互作用。可以介导LLPS的弱多价相互作用的第二种类型的特征是存在具有多个相互作用动机,或者“贴纸”的固有无序区域(IDR)。
这两种原型都有多价性共同;也就是说,蛋白质通过多个相互作用的域或动机进行相互作用。通过遗传手段操纵蛋白质的价数的实验在定义驱动蛋白质相分离的域和动机方面非常有启发性,并且显示出饱和浓度Csat,即系统开始相分离的浓度,随着价数的增加而显著降低。在驱动LLPS的特定RNA被研究的地方,发现了蛋白质-RNA相互作用的另一个多价性来源。许多含有IDR的蛋白质都含有多个与RNA相互作用的域,目标RNA包含蛋白质的多个可能的结合位点。因此,形成多价相互作用有许多途径,这些相互作用是特定蛋白质和核酸在活细胞的化学约束下进行LLPS的能力的基础。
如何从多价域/动机相互作用的网络中产生凝聚物是很容易理解的,因为这些多点相互作用的分子基础从高分辨率结构中得到了很好的理解。然而,IDRs如何介导LLPS的理解较差,直觉性较差,因此需要对当前的艺术状态进行简短的描述。IDRs是一种在相分离蛋白质中经常发现的蛋白质域类型。IDRs通常没有许多芳香和脂肪族氨基酸,这些氨基酸通常构成折叠域的核心,并且不采用与单一低能量状态相对应的单一折叠结构。相反,这些蛋白质采样一系列由IDR的特定主序列决定的具有相似能量的构象。主序列也决定了这些IDRs的相行为。我们对IDRs中相分离的序列决定因素的理解仍然很初级,但是很明显,存在不同类型的IDRs,决定了IDR响应的刺激类型。序列也可能决定其密集相的突现性质,即,密集相浓度,以及物质性质,如粘弹性。
影响蛋白质相分离行为的序列变异,包括无序区域(IDR)的长度、所谓的"粘贴"元素(可能指有助于蛋白质聚合的氨基酸序列)的数量、排列和类型,以及链接这些粘贴元素的序列,也就是所谓的链接子或间隔子。物理化学和构象属性的典型决定因素包括疏水残基的比例、排列和性质。虽然在平均无序区域中,疏水残基是稀有的,但在相分离的无序区域中,它们起到粘合元素的作用,可以在温度变化时促进凝聚。其他影响物理化学和构象属性的因素是带电残基的比例和排列。高度带电但电荷相反的蛋白质(或蛋白质和核酸)可以通过一个称为复杂凝聚的过程一起凝聚。
一些相分离的无序区域共享的一个特征是它们包含低复杂度序列区域(LCR),也就是说,特定的氨基酸在这些区域中的代表性比在蛋白质组中要高。最常见的LCR类型之一是类似朊病毒的LCR。这种LCR主要不含带电残基,而富含极性氨基酸残基,如丝氨酸、酪氨酸、谷氨酰胺或天冬酰胺,这使得我们可以通过基于组成的算法来识别它们。类似朊病毒的蛋白质最初是与被称为朊病毒的传染性聚集倾向蛋白质联系在一起的。然而,最近的发现表明,类似朊病毒的LCR也经常参与蛋白质的相分离。这表明,用来检测朊病毒蛋白质的算法不仅可以识别倾向于聚集的蛋白质,但主要是能形成通过相分离形成凝聚体的蛋白质。一个略有不同的LCR类型是RGG结构域,这种结构域常常出现在RNA结合蛋白质中。除了类似朊病毒的LCR中的小极性残基,它们还含有大量的精氨酸,而它们的名字RGG来源于它们所含的能够介导LCR/RNA相互作用的RGG盒。人们认为类似朊病毒的结构域和其他LCR的序列特性通过电荷-电荷、π-π和阳离子-π相互作用来促进弱相互作用。这些相互作用的结构基础目前正在讨论之中。
一般来说,利用预测算法(如Box 1、图2所示)来识别蛋白质中的无序区域,分析它们的物理化学性质,并用这些分析结果来生成关于相行为物理起源的假设是非常有用的。以FUS为例,我们在图2中说明了这些预测算法的使用。FUS的结构域构架是已知的,并作为参考在图2(顶部)中显示。我们使用IUPred和PLAAC的组合(或Box 1中的另一套无序预测器),确定前250个残基是无序的。这个预测与第一个折叠域(RRM)在第287个残基处开始的事实相吻合。在第365到420个残基间的折叠锌指模块的N端和C端以及从第450个残基到C端,我们识别出了其他的无序区域。PLAAC将N端的QGSY-和G富集区域以及第一个RGG结构域识别为类似朊病毒的LCR。CIDER(Box 1)揭示了N端缺乏带电残基(表现为低带电残基比例[FCR]和残基电荷[NCPR])以及RGG结构域中含有大量的正电荷精氨酸(表现为略微正的NCPR和非零的FCR)。由于CIDER和PLAAC无法区分折叠和无序结构域,因此正确的折叠和无序结构域的划分至关重要,关于折叠结构域的更多信息可以在各种数据库中找到,例如在D2P2(Box 1)中。从这个序列分析中,我们可以预测N端的QGSY-和G富集区域以及RGG结构域可能介导液液相分离(LLPS),但FUS的凝聚可能涉及到不同类型的氨基酸基序。
基于序列分析的假设需要进行实验测试。的确,FUS相行为的实验分析证明了无序区域及其内部的芳香族和精氨酸丰富基序在驱动FUS相分离中的重要性。这种基于序列导向的实验分析策略不仅提供了对所研究蛋白质相行为的深入理解,而且有助于我们建立序列/相行为关系的知识库,并促进预测器的进一步开发。生物相分离中一个尚未解决的关键问题是在演化中选择特定材料属性的程度;因此,需要大量工作来链接基序特征、凝聚体的出现物理属性以及它们的功能。
(未完待续)
文章来源:https://doi.org/10.1016/j.cell.2018.12.035
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有