在非编码RNA中,近年来最受关注的要数长链非编码RNA(lncRNA),它在免疫、肿瘤、炎症等方向中均扮演着重要角色。那么,当我们拿到含有lncRNA信息的VITA单细胞转录组数据后,后续如何分析挖掘?单细胞lncRNA信息能为我们提供哪些新的洞见?
获得更精准的细胞分群注释
由于lncRNA通常有着较明显的细胞类型特异性,因此可将其纳入分群及注释分析,获得更加精准的细胞分群及注释结果。
基于单细胞lncRNA及mRNA信息,M20 Genomics用VITA CytBase数据库(点击查看内容)对来源于49例肿瘤样本、共80万多个细胞核的VITA单细胞平台数据进行分群注释,共得到恶性上皮细胞、成纤维细胞、巨噬细胞、B细胞、T细胞等共39个细胞类型。其中,细胞数量最多的细胞类型是恶性上皮细胞(图1)。
图1. 基于单细胞lncRNA及mRNA信息对泛癌种样本VITA单细胞平台数据进行的分群注释
对每例样本中各个细胞类型占比分析可以看出,尽管细胞类型比例在不同患者间存在较大异质性,但对于同一癌种的样本而言,主要细胞类型较为相似。相近部位癌种间(如胶质母细胞瘤和胶质瘤、肝细胞癌和肝内胆管癌)的主要细胞类型也存在一定相似性。而原发部位差异较大癌种间,主要细胞类型也存在较大差异(图2)。这些趋势进一步佐证上述分群注释的准确性。
图2. 各样本中各个细胞类型占比情况
癌种名称缩写释义:BRCA - 乳腺癌;COAD - 结肠癌;ESCA - 食管癌;GBM - 胶质母细胞瘤;Glioma - 胶质瘤;HCC - 肝细胞癌;ICC - 肝内胆管癌;LUAD - 肺腺癌;READ - 直肠癌;STAD - 胃癌
同时,lncRNA还可提供特异性细胞类型marker。VITA单细胞平台通过对上述49例肿瘤样本的数据分析,M20可以获取各个亚群中特异性高表达的lncRNA marker(图3)。
图3. 各细胞类型中丰度前三的lncRNA maker
这些lncRNA marker中,有一些是文献报道过的与特定细胞类型有关的lncRNA,例如在脂肪细胞中高表达的TRHDE-AS1(图4),它曾被报道与脂肪组织发育有关。同时,也有许多lncRNA marker首次被发现在特定细胞类型中有特异性高表达,例如在基底细胞中高表达的LINC01060,在NKT细胞中高表达的RP11-231C18.3,在黏膜细胞中高表达的RP11-1017G21.4等(图4)。
图4. 部分lncRNA marker在样本中所有细胞里的表达情况
有趣的是,从VITA单细胞平台数据中发现的这些lncRNA marker与各个细胞类型的mRNA marker呈现出明显的相关性(图5),进一步为这些lncRNA作为细胞类型特异性marker提供支持性证据。
图5. 各细胞类型lncRNA marker(横轴)与mRNA marker(纵轴)的相关性(细胞类型颜色标注同图1)
总而言之,通过对单细胞全转录组中lncRNA的分析,M20可以获得更加精准的细胞分群注释,同时还能发现高度特异性的新细胞类型marker。
发现功能特异性的细胞亚群
肿瘤中恶性细胞异质性一直是科研和临床关注的重点,为更好地分析恶性细胞间异质性,M20通过NMF分析,在上述样本中发现9个不同的元程序(meta-program),分别对应不同的恶性细胞功能亚群(图6)。
图6. 泛癌种样本恶性细胞中发现的9个meta-program及其对应的恶性细胞亚群
尽管不同癌种中各meta-program占比有很大差异,但这9个meta-program中,有7个对应亚群均在多个癌种中出现,其中6个(上皮衰老、细胞周期、肺泡上皮、皮肤色素、蛋白酶体降解)在多个癌种中均有较高占比(图7左)。同时,在TCGA的癌症bulk sequencing数据中,也同样观察到这些meta-program在各个癌种中的富集(图7右)。这说明这些meta-program代表着癌症中普遍存在的异质性特征。
图7. 各meta-program的细胞丰度及其在各癌种样本中的富集情况(左),以及各meta-program在TCGA各癌种数据中的富集情况(右)
这9个meta-program的marker由mRNA和lncRNA共同组成(图9),mRNA marker和lncRNA marker表达均显示出明显特异性(图8-9)。
图8. 各meta-program中前5个mRNA(左)和lncRNA marker(右)
图9. MES(胶质瘤)meta-program的lncRNA marker RP11-176N18.2和mRNA marker FAT3在所有恶性细胞中的表达情况
以上结果说明,lncRNA可作为marker gene协助功能亚群的细分,以出色的特异性助力功能异质性的深入挖掘。
挖掘不同细胞亚型中LncRNA对基因表达的调控机制
LncRNA在基因表达的时空调控中起着关键作用,可以调控mRNA的表达。为深入了解肿瘤中各类细胞里lncRNA对基因表达的调控机制,M20在上述泛癌种样本中对lncRNA-mRNA 的相关关系进行分析,找到近6万对在不同癌种中特异性表达的lncRNA-mRNA关系对,以及1万多对细胞类型特异性的lncRNA-mRNA关系对(图10)。
图10. 在不同细胞类型中及不同癌种中特异性的lncRNA-mRNA关系对数目(上图)及表达热图(下图)
这些lncRNA-mRNA关系对提示特定lncRNA和mRNA在特定癌种及细胞类型中的潜在特异性相互作用,其中有不少是首次发现。例如,在巨噬细胞中,我们发现lncRNA LINC00607存在3个特异性关系对:LINC00607-CCL18、LINC00607-VSIG4、LINC00607-IL1A,提示LINC00607与CCL18、VSIG4、IL1A这3个巨噬细胞特异性表达的mRNA均可能存在相互作用。在前面提到的恶性细胞的9个meta-program中,M20在不同meta-program对应的恶性细胞亚群中也分析得到亚群特异性的lncRNA-mRNA关联(图9&图11)。这些特异性lncRNA-mRNA关系对的信息可以帮助我们深入分析肿瘤及免疫微环境中尚不明了的基因表达调控机制。
图11. LncRNA(纵轴)-mRNA(横轴)在各个恶性细胞meta-program中的相关性热图
为进一步了解这些lncRNA在恶性细胞中调控基因表达的机制,M20对这些meta-program亚群中lncRNA和转录因子及其调控子(regulon)的功能关联进行了分析。通过SCENIC分析,共得到468个meta-program特异性的调控子,随后分析了这些调控子与meta-program lncRNA marker的功能相似性,发现许多lncRNA与调控子存在共表达(图12)。
图12. lncRNA(横轴)与转录因子(TF,纵轴)相关性热图
根据lncRNA和转录因子的相关性,M20选择其中显著相关的核心lncRNA和转录因子,构建出在不同恶性细胞meta-program中的lncRNA-转录因子调控网络(图13-14)。
图13. 部分meta-program中的lncRNA-转录因子调控网络
图14. 各meta-program中lncRNA-转录因子调控网络的数据及其在不同癌种中的表达情况
在这些lncRNA转录因子调控网络中,研究人员可以进一步挖掘特定lncRNA对转录因子的调控。例如,在细胞周期meta-program中,转录因子ZNF697受到10个lncRNA的共同调控;而lncRNA RP4-798P15.3则同时对STAT5A、SP2、NR1I2、MSX2、AHCTF1这5个转录因子起着调控作用(图13)。这些信息可以帮助大家进一步深入探索肿瘤异质性在分子水平上的调控机制。
总结
从上述例子中可以看到,通过对单细胞mRNA和lncRNA的联合分析,M20可以获得比单细胞mRNA分析更为深入全面的信息,不仅能得到更为精细准确的细胞类型注释及亚群细分,还能从转录调控角度出发,挖掘具体生物学事件中lncRNA调控基因表达的潜在机制。
对于mRNA,科学家们已经研究多年,理解得较为透彻;但lncRNA相关的机制在许多领域中还有许多待摘取的“低垂果实”。因此,无论是对于疾病机制的研究,还是对分子生物学机制的探索,或是对药物作用机制(MOA)的理解,VITA高通量单细胞转录组平台提供的单细胞lncRNA信息都能带来全新的洞见,助力更多突破。
同时,VITA CytBase数据库也已经正式对外发布并公开第一阶段部分数据,以便用户更加方便地分析VITA平台的单细胞mRNA和lncRNA数据。
参考引文: