
本系列讲解 单细胞(scRNA-seq)中RNA“速率”分析教程[1],持续更新,欢迎关注,转发!

在单个细胞中测量基因活性时,通常需要破坏细胞以读取其内部信息。这给研究动态过程以及理解细胞如何做出决策带来了很大挑战。2018 年,La Manno 等人在《Nature》上提出了 RNA 速率的概念。这一概念利用了在常见单细胞 RNA 测序技术中,新转录的、未剪接的前体 mRNA 和成熟的、剪接的 mRNA 可以被区分开来的事实(新转录的 mRNA 可通过内含子的存在来识别)。通过测量基因活性及其在单个细胞中的变化(即 RNA 速率),为研究细胞分化提供了新的途径。最初提出的框架将速率定义为观察到的剪接和未剪接 mRNA 比例与推断出的稳态的偏差。但如果假设的共同剪接速率以及稳态 mRNA 水平的完整剪接动态被违反,就会导致速率估计出现误差。
2020 年,Bergen 等人在《Nature Biotechnology》上开发了 scVelo。该工具通过使用基于似然的动态模型来解决剪接动力学的完整转录动态,从而解决了上述限制。这使得 RNA 速率能够应用于包括瞬态细胞状态在内的广泛系统,而这种状态在发育和对干扰的响应中很常见。此外,scVelo 还可以推断基因特异性的转录、剪接和降解速率,并恢复潜在的细胞过程时间。这种潜在时间相当于细胞的“内部时钟”,仅根据细胞的转录动态,就能近似细胞在分化过程中所经历的真实时间。此外,scVelo 还能识别调控变化的阶段,例如细胞命运承诺阶段,并在其中系统地检测潜在的驱动基因。
RNA 速率通过将测量值与底层 mRNA 剪接动力学联系起来,探索方向性轨迹的推断。具体来说,当某个基因开始转录时,新转录的前体未剪接 mRNA 会增加;而当转录被抑制或停止时,未剪接 mRNA 会减少。因此,通过区分未剪接和剪接 mRNA,可以近似 mRNA 丰度的变化(即 RNA 速率)。然后,利用跨 mRNA 的速率组合,就可以估计单个细胞的未来状态。
目前,RNA 速率估计主要有三种方法:
其中,稳态/确定性模型(如 velocyto 所用)假设转录阶段(诱导和抑制)持续足够长的时间以达到稳态平衡(活跃和非活跃)。它通过将观察到的比例与稳态比例的偏差来量化速率,并通过在下四分位数和上四分位数的假定稳态上进行线性回归来近似平衡的 mRNA 水平。但这种方法有两个基本假设:基因间的共同剪接速率以及稳态 mRNA 水平在数据中得到反映。当一个群体包含多个异质亚群动态时,这些假设往往不成立,从而导致速率估计和细胞状态的错误。
随机模型则试图更好地捕捉稳态。它将转录、剪接和降解视为概率事件,通过矩方程来近似得到的马尔可夫过程。通过包括二阶矩,它不仅利用了未剪接与剪接 mRNA 水平的平衡,还利用了它们的协变。在内分泌胰腺的研究中已经证明,随机性增加了有价值的信息,总体上比确定性模型更一致,同时在计算时间上仍然保持高效。
动态模型(虽然计算成本最高,但功能最为强大)能够为每个基因精确地模拟剪接动力学的全过程。它可以根据不同的情况(如非稳态细胞群体)灵活调整 RNA 速度,而不受制于统一的剪接速率或稳态假设。

splicing dynamics
剪接动力学的计算是基于似然的期望最大化框架来完成的,通过不断迭代来估算反应速率的参数以及细胞特异性的潜在变量,比如转录状态 k 和细胞内部潜在时间 t。
该模型的主要目标是构建未剪接和已剪接 RNA 的动态轨迹。为此,它设计了四种转录状态,以涵盖基因活性的所有可能情况:两种动态过渡状态(分别是诱导和抑制)以及两种稳态(分别是活跃和非活跃),这些稳态可能在每次动态转变后出现。
在期望步骤中,根据当前的模型估计,通过最小化观察到的 mRNA 值与动态轨迹之间的距离,为其分配一个潜在时间。接着,根据相轨迹上各段(诱导、抑制、活跃和非活跃稳态)的似然性,确定相应的转录状态。在最大化步骤中,通过更新反应速率的参数,进一步优化整体的似然性。
这种模型能够提供更准确的速度估计,并且更有效地识别转录状态。它还能基于似然性系统地识别出驱动动态变化的关键基因,从而揭示调控细胞命运转变的核心因素。此外,该模型还能推断出一个通用的细胞内部潜在时间,这个时间在不同基因之间是共享的,有助于关联不同基因并识别转录变化的规律。
为了获得最佳结果和深入的见解,我们建议使用动态模型。如果对运行时间有要求,随机模型是一个不错的选择,因为它能高效地近似动态模型,在处理 30k 细胞时仅需几分钟。相比之下,动态模型可能需要长达一小时,但目前正在进行优化以提高其效率。
Reference
[1]
Source: https://scvelo.readthedocs.io/en/stable/about.html