Basic Information 英文标题:LnCeCell 2.0: an updated resource for lncRNA-associated ceRNA networks and web tools based on single-cell and spatial transcriptomics sequencing data 中文标题:LnCeCell 2.0:基于单细胞和空间转录组测序数据的长非编码RNA相关ceRNA网络和网络工具更新资源 发表日期:29 October 2024 文章类型:Database Issue 所属期刊:Nucleic Acids Research 文章作者:Qiuyan Guo | Peng Wang 文章链接:https://academic.oup.com/nar/article/53/D1/D107/7848852 Abstract 我们描述了LnCeCell 2.0(http://bio-bigdata.hrbmu.edu.cn/LnCeCell),这是一个基于单细胞和空间转录组测序(stRNA-seq)数据的更新资源,用于长链非编码RNA(lncRNA)相关的竞争性内源性RNA(ceRNA)网络和网络工具。 我们已经使用显著扩展的数据和改进的功能更新了LnCeCell 2.0数据库,包括(i)86种疾病/表型和80个人类正常组织中的257个单细胞RNA测序和stRNA-seq数据集。 (ii)针对1,002,988个细胞和367,971个空间点的836,581个细胞特异性及空间点特异性ceRNA相互作用和功能网络。 (iii)与疾病病理、诊断和治疗相关的15,489个实验支持的lncRNA生物标志物。 (iv)通过人工注释详细标注ceRNA的细胞类型、细胞状态、亚细胞和细胞外位置。 (v)20,326名癌症患者的ceRNA表达谱和后续临床信息。 此外,开发了一套包含24个灵活工具(包括8个综合工具和16个迷你分析工具)来研究以单细胞/点分辨率调节的ceRNA调控机制。 例如,CeCellTraject工具展示了不同细胞群体的详细ceRNA分布,并探索了沿发育轨迹的ceRNA网络动态变化。 LnCeCell 2.0将有助于研究具有单细胞和空间点分辨率的精细调整的lncRNA-ceRNA网络,帮助我们理解复杂微生物生态系统背后的调控机制。 Introduction Para_01 长链非编码RNA(lncRNAs)越来越多地被认为是多种疾病状态下的关键调节分子,包括癌症。 lncRNAs可以调节染色质功能,调控无膜核小体的组装和功能,改变细胞质信使RNA(mRNA)的稳定性和翻译,并干扰信号通路,其中许多最终影响了不同生物和生理病理背景下基因的表达(1-3)。 特别是对于许多癌症的发展和转移,lncRNAs已被确定为潜在的致癌生物标志物(4)。 显然,由lncRNAs介导的生物过程的调控机制经常涉及通过竞争性内源RNA(ceRNA)理论的微RNA(miRNAs),从而形成lncRNA-miRNA-mRNA轴来共同调节基因表达(5,6)。 换句话说,lncRNAs可以通过与共享miRNAs竞争结合而作为‘miRNA海绵’间接调节mRNA表达。 这些与lncRNA相关的ceRNAs被广泛研究,并显著扩展了人类基因组中的功能性遗传信息(6)。 例如,LINC00680/miR-423-5p/PAK6轴可以作为食管鳞状细胞癌的预后生物标志物和治疗靶点(7)。 多个ceRNA轴可能通过共同的lncRNAs、miRNAs或mRNAs合作调节癌症进程,形成一个ceRNA网络(8)。 例如,lncRNA BC069792充当分子海绵,吸附has-miR-658和has-miR-4739以上调KCNQ4蛋白表达,抑制JAK2和p-AKT的活性,并抑制乳腺癌的增殖(9)。 Para_02 在过去的几十年里,基于疾病背景的基因调控网络研究及其应用取得了显著进展。 最近的研究正在使用复杂的机器学习模型来揭示控制基因调控的复杂生物学关系,在药物靶点识别和个性化医疗等治疗领域有着光明的应用前景。 随着ceRNA分析变得越来越复杂,与ceRNA调控网络相关的功能和机制的研究也变得更加严格。 因此,整理和综合这些信息变得至关重要。 最近,已经开发了几种数据库来存储ceRNA调控网络及其疾病关联。 例如,starBase v2.0提供了miRNA–mRNA和miRNA–lncRNA相互作用网络,并预测了miRNA和其他非编码RNA在ceRNA调控网络中的功能。 LncACTdb 3.0旨在促进ceRNA网络的个性化分析。 它提供了与肿瘤诊断和治疗相关的ceRNA相互作用和lncRNA生物标志物,适用于各种物种和疾病。 LnCeVar提供了破坏ceRNA调控网络的基因组变异的详细概述。 scGRN和KnockTF 2.0提供了转录因子(TF)与其下游靶基因之间的全面单细胞基因调控网络,并探索复杂疾病中的敲除/敲入效应。 eRNAbase和SEanalysis 2.0探讨了增强子RNA和超级增强子在招募大量控制基因调控网络和细胞身份的转录因子中的关键调控作用,涉及各种生物过程和疾病。 然而,迄今为止,只有少数研究提供了必要的资源和工具来进行单细胞水平上的ceRNA调控分析。 在单细胞水平上进行的分析有可能促进对肿瘤内异质性和细胞与肿瘤微环境(TME)之间联系的探索。 与传统的组织为基础的分析相比,单细胞水平分析的优势在于能够识别新的稀有细胞类型和亚型,以及阐明单个细胞的发展轨迹和分化。 因此,我们开发了LnCeCell,一个全面的lncRNA相关ceRNA网络的单细胞分辨率数据库。 自2021年首次发布以来,功能性ceRNA的数量显著增加,高通量单细胞RNA测序(scRNA-seq)和空间转录组学测序(stRNA-seq)数据集迅速扩展。 这些数据集需要进一步分析和解释。 因此,迫切需要更新LnCeCell,增加更多资源和增强功能。 Para_03 为了满足这些需求,我们已将LnCeCell更新至2.0版(LnCeCell 2.0),数据显著扩展且功能得到改进(表1)。最新版本的LnCeCell 2.0包含了一个新的数据集,该数据集包括来自86种疾病和疾病相关表型的数百个scRNA-seq、stRNA-seq和bulk-seq数据集,并具有不同的临床随访和治疗(如化疗、免疫疗法和靶向治疗)。此外,还整合了80个人类正常组织/器官的数据集。基于这些数据,新确定了836581个细胞特异性和空间点特异性lncRNA相关的ceRNA相互作用和功能网络,涉及1002988个细胞和367971个空间点。经过人工校正,收集了超过15000个实验支持的lncRNA生物标志物(与癌症细胞转移、复发、预后、循环、药物耐药性、免疫反应等有关)。此外,通过从文献及相关数据源进行人工校正,LnCeCell 2.0提供了更详细的细胞类型和细胞状态注释,以及ceRNA的亚细胞和细胞外位置信息。为了便于数据检索和分析,LnCeCell 2.0开发了一套灵活的工具(包括8个综合分析工具和16个小分析工具)。这些工具有助于全面分析不同细胞和空间域中的ceRNA分布,使研究细胞谱系中及肿瘤微环境内的ceRNA网络动态成为可能。总体而言,更新后的数据库有望促进对具有单细胞和空间点分辨率的精细调节lncRNA-ceRNA网络的研究,从而为复杂微生物生态系统调控机制提供见解。 - 图片说明
◉ 表1. LnCeCell 2.0的数据扩展和功能改进
Improved data expansion and new features Expansion of high-throughput scRNA-seq data 高通量单细胞RNA测序数据的扩展
Para_04 LnCeCell 2.0 已更新,包含更多单细胞 RNA 测序数据集(图 1A 和 B)。 收集和预处理数据后(补充方法),当前版本的 LnCeCell 包含 204 个单细胞 RNA 测序表达数据集,涵盖总共 1,002,988 个细胞和 117 种细胞类型。 为了扩展 LnCeCell 2.0 的疾病覆盖范围,包含了 86 种具有不同临床结果和治疗选择(如化疗、免疫疗法和靶向疗法)的疾病和与疾病相关的表型(补充图 S1)。 此外,从一项先前的研究中整理了正常人体器官和组织的数据集,目的是确定所有主要人体器官的细胞类型组成,并构建人体细胞景观方案(27)。 我们已经识别出 97 个基因表达谱,涵盖了所有主要的人体器官,包括成人和胎儿组织(补充图 S2)。 每个数据集的平均细胞数为 4916,其中动脉粥样硬化(GSE131778)数据集拥有最多的细胞(n = 11,756),而黑色素瘤(GSE157743)数据集拥有最少的细胞(n = 102)。 对于每个数据集,LnCeCell 2.0 根据 GENCODE 基因注释(GRCh38)(28)识别了不同基因类型的编码基因、长非编码 RNA、假基因和其他基因类型的表达谱。 最终,从单细胞 RNA 测序数据中共识别出 19,643 个编码基因和 5,699 个非编码基因。 与 LnCeCell 1.0 相比,更新后的数据库在数据量、细胞数、细胞类型、基因和疾病类型方面都有显著扩展(表 1)。 图片说明
◉ 图1.LnCeCell 2.0的数据扩展和新特征。(A,B)LnCeCell 2.0数据库对高通量测序和人工整理数据集的收集与扩展。(C–I)LnCeCell 2.0提供了多种灵活、全面且小型化的分析工具,用于在单细胞/点分辨率下研究ceRNA调控机制。
New collection of high-throughput stRNA-seq data 高通量stRNA-seq数据的新收集
Para_05 最近的空间转录组学技术进步使得系统地测量与组织空间位置相关的基因表达成为可能,从而提供了空间解析的信息,以深入了解各种复杂疾病(29)。 为了在空间层面上提供ceRNA调控的初步观察,LnCeCell 2.0通过手动搜索PubMed上的出版物以及从NCBI-GEO(30),EMBL-EBI(31),SpatialDB(32),SPASCER(33),Aqulia(34)和10x Genomics(https://www.10xgenomics.com/)获取公开可用且整合的数据集来收集人类和小鼠的stRNA-seq数据集。 LnCeCell数据库的当前版本包含覆盖22种组织和41种疾病/表型的53个空间转录组学数据集(补充图S3)。 空间组学数据的三个主要部分包括:(i)不同空间细胞/斑点的基因表达谱,(ii)每个细胞/斑点的三维坐标的空间位置,以及(iii)作为基因表达背景的组织切片的组织学图像。 LnCeCell 2.0测量了387个组织切片中的367971个空间细胞/斑点中的36117个基因的表达,并识别了候选ceRNA以重新分层肿瘤微环境(补充方法)。 将上述空间转录组学基因表达数据与高分辨率组织学图像融合收集,可能会提高组织病理学的可解释性,并进一步帮助研究ceRNA网络在组织中细胞空间组织内的调控机制。 Newly identified cell-specific and spatially cell/spot-specific ceRNA interactions 新识别的细胞特异性和空间上细胞/斑点特异性的ceRNA相互作用
Para_06 基于高通量scRNA-seq和stRNA-seq数据,LnCeCell 2.0识别了lncRNA相关的ceRNA相互作用,并提供了细胞特异性和空间上细胞/点特异性的网络。 候选ceRNA是从以前提供的数据库中收集的,这些数据库提供了各种疾病中潜在ceRNA相互作用的信息(15,35),然后将常见的ceRNA识别为潜在的调控候选者。 我们使用了一种基于概率论的已发表方法来构建细胞特异性网络,以识别单细胞中的ceRNA,该方法假设ceRNA对可能在某些细胞中相关但在其他细胞中不相关(36)。 对于每个ceRNA相互作用,计算了一个P值和错误发现率(FDR)来确定一个候选者是否在一个细胞/点中相关,通过测试统计独立性来进行判断(补充方法,补充图S4),并计算了一个ceRNA活性评分为-log10(P值)。 共有836581个独特的ceRNA(FDR<0.05)被纳入数据库。 为了提供更详细和可靠的信息,LnCeCell 2.0已经更新以包含更多的实验验证的ceRNA相互作用,这些相互作用来自我们之前的研究(16,26,35)。 总共通过实施高置信度的实验技术验证了5669个ceRNA相互作用,包括利用荧光素酶报告基因测定、聚合酶链反应、蛋白质印迹和其他方法。 基于scRNA-seq数据,LnCeCell 2.0能够调查不同细胞簇中的ceRNA分布,并提供细胞特异性的ceRNA网络,可以用来研究分子网络与细胞功能/状态之间的关系。 基于stRNA-seq数据,LnCeCell 2.0提供了具有组织特异性位置信息的ceRNA调控的空间分布,这可能增强组织病理学的解释能力和临床实用性。 Manual curation of biomarkers, functional annotations and clinical information 生物标志物、功能注释和临床信息的手动校正
Para_07 为了全面了解lncRNA相关ceRNA的作用,我们手动整理了它们与癌症生物标志物、生物学功能和临床应用相关的注释。 如先前所证明的(26,37),与病理学、诊断和治疗相关的lncRNA生物标志物被分类为自噬、细胞凋亡、细胞生长、循环、药物抗性、上皮间质转化(EMT)、免疫、转移、复发和预后(补充图S5)。 经过手动整理(补充方法),总共收集了15489个经实验支持的lncRNA生物标志物,整合到LnCeCell 2.0中。 此外,LnCeCell 2.0还包括一份包含16604个基因集的列表,涵盖了广泛的注释功能,例如基因本体论(GO)术语(38)、生物学通路(39)、癌细胞状态(40)、经典癌症特征(41)以及亚细胞和细胞外位置(42),从而促进了全面的功能分析。 为了推断ceRNA对临床特征的调控作用,LnCeCell 2.0从TCGA(43)和NCBI-GEO(30)获得了19491名癌症患者的基因表达谱,这些患者具有不同的临床治疗和随访信息。 将癌症生物标志物、功能注释和临床特征整合到LnCeCell 2.0中,将通过病理学分析为研究ceRNA调控机制提供增强的功能背景。 New features and enhanced web tools 新功能和增强的网络工具
Para_08 基于‘一个细胞,一个网络,一个世界’的理论,LnCeCell 2.0 已经更新了多个新功能来探索基因表达和 ceRNA 调控在单细胞和空间水平上的情况(补充图S6)。 这些功能将使我们能够研究 ceRNA 在不同细胞簇、细胞类型和特定组织学位点中的分布,并进一步探讨 ceRNA 调控的动态变化及其与细胞功能/状态的相关性。 已经开发了一套包含24种灵活工具(包括8种综合工具和16种小型分析工具)来研究在单细胞/点分辨率下的 ceRNA 调控机制(图1C-I)。 综合分析工具有助于实现一系列连续步骤的集成分析。 例如,CeCellCluster 和 CeCellTraject 工具执行细胞簇分析,识别具有不同状态的不同细胞群体,并构建细胞发育轨迹来展示细胞特异性 ceRNA 网络在细胞谱系中的动态变化(图1C和D)。 CeCellState 和 CeCellFunc 工具有助于调查不同细胞群体中基因、ceRNA、功能、通路和细胞状态之间的相关性分析(图1E和F)。 Multi-3D(scRNA-seq&stRNA-seq)工具提供了基于网络的界面,用于组合和可视化单细胞和空间分辨转录组学数据的多层特征(图1G)。 CeCellLand(scRNA-seq & stRNA-seq)工具提供了全面的概览,展示了在单细胞和空间分辨率下泛癌和正常组织/器官中细胞特异性 ceRNA 关系的分布(图1H)。 此外,小型分析工具提供了多种快速且用户友好的功能,包括标志性物注释、网络构建、亚细胞和细胞外定位映射、生存分析等(图1I)。 , Database construction and improved user interface Para_09 LnCeCell 2.0 被用于利用 MySQL 软件(版本 5.5)管理数据。 网页是使用 Java Server Pages 开发并在 Tomcat 网页服务器(版本 6)上部署的。 一些 JavaScript 插件被用于创建和可视化数据表,包括 jQuery.js(版本 1.11.3)、Datatable.js(1.10.10)和 ECharts.js(版本 4.0)。 所有的统计分析都是使用 R 框架(版本 4.2.1)进行的。 可以通过以下链接访问 LnCeCell 2.0 数据库:http://bio-bigdata.hrbmu.edu.cn/LnCeCell。 LnCeCell 版本 1.0 仍然可供需要它的用户使用。 要访问 LnCeCell 1.0,用户可以访问 LnCeCell 2.0 主页上的链接或直接访问 http://bio-bigdata.hrbmu.edu.cn/LnCeCell1.0。 Para_10 LnCeCell 2.0 为用户提供了一个方便、友好的网页界面,允许用户搜索、浏览、分析和下载数据(图2A–E)。 LnCeCell 2.0 的‘主页’提供了一个搜索引擎,使用户能够高效地调查数据或进行分析(补充图S7)。 可以使用多种关键词来搜索和浏览LnCeCell 2.0数据库,包括但不限于lncRNAs、mRNAs、ceRNAs、疾病、器官和序列(图2A和B)。 为了说明LnCeCell 2.0数据库的功能,我们以研究较为充分的lncRNA NEAT1为例进行了研究。 与NEAT1相关的所有数据记录均在搜索结果页面上以数据面板和表格的形式呈现(图2C和D及补充图S8和S9)。 为了获得感兴趣的记录,用户可以通过点击表头以灵活的方式重新排列结果表。 ‘详情’列将引导用户到一个包含全面信息的页面,包括疾病-ceRNA关联、患者的诊断和治疗程序、实验支持的注释、检测到ceRNA的细胞数量和百分比等(图2E及补充图S10)。 图片说明
◉ 图2.LnCeCell 2.0数据库的数据查询流程。(A)LnCeCell 2.0数据库的搜索界面和选项。(B)LnCeCell 2.0数据库的浏览界面。(C)ceRNA的详细结果信息。(D)ceRNA相关疾病的详细结果信息。(E)细胞特异性和空间点特异性ceRNA相互作用的详细结果信息。
Para_11 此外,已经开发了一组在线工具来研究ceRNA调控机制在单细胞/点分辨率水平上的作用(图3A–F)。 根据细胞内基因表达的原则,可以将细胞分类为不同的群体,然后可以根据它们的细胞类型、基因含量、ceRNA谱、患者身份、疾病阶段和其他相关特征进行可视化。 这通过补充细胞分布的坐标来实现。 使用CeCellCluster工具全面绘制了NEAT1表达及其相关ceRNA相互作用在不同细胞群体中的分布情况(图3A和补充图S11)。 为了深入了解与NEAT1相关的ceRNA网络的动力学及其在不同细胞状态谱系中的关联,构建并说明了一个细胞发育轨迹(图3B和补充图S12)。 为了阐明肿瘤微环境的表型和功能异质性,我们使用LnCeCell 2.0的CeCellState和CeCellFunc工具基于不同的功能背景评估了细胞状态转换(图3C和D)。 例如,我们的研究发现,在急性红白血病(GSE142213)中存在多种具有升高EMT活性评分的细胞状态。 此外,NEAT1表达与EMT评分之间存在正相关关系(图3C和补充图S13),表明NEAT1可能在调节EMT活性方面发挥作用(44)。 通过利用不同细胞簇或发育轨迹的分布图,用户可以通过点击任意一个细胞来构建特定于该细胞的网络,从而能够在不同的细胞环境中并排比较ceRNA调控(图3A–D)。 Multi-3D(scRNA-seq & stRNA-seq)工具使用户能够检查NEAT1相关ceRNA网络和功能(如GO术语、生物通路、癌症标志等)之间的复杂相互作用,这些因素影响个体疾病的病理和细胞命运(图3E和补充图S14)。 这种分析以交互式三维格式呈现,提供了全面的视觉表示。 为了提供NEAT1相关的ceRNA调控关系的更全局视角,CeCellLand(scRNA-seq & stRNA-seq)工具提供了跨多种泛癌和正常组织/器官的ceRNA分布的综合景观(图3F和补充图S15)。 总之,LnCeCell 2.0的网络工具提供了一种有效的手段来分析NEAT1调控机制,基于单细胞和空间解析转录组数据,为整合、比较和可视化提供了详细的见解。 图片说明
◉ 图3。LnCeCell 2.0中数据分析工具的应用案例研究。(A) NEAT1相关ceRNA相互作用在不同细胞群体中的分布。◉ (B) NEAT1相关ceRNA网络在不同细胞状态谱系中的动态变化。◉ (C, D) 调查NEAT1相关ceRNA出现与细胞状态转换之间的关联。◉ (E) 交互式三维界面使得基于单细胞RNA测序(scRNA-seq)和空间转录组学测序(stRNA-seq)数据,调查NEAT1相关ceRNA网络与功能之间的复杂相互作用成为可能。◉ (F) 泛癌和正常组织/器官中ceRNA分布的综合景观。
Conclusions and future development Para_12 自2021年LnCeCell(版本1.0)开发以来,功能性ceRNA的数量显著增加,并且高通量单细胞和空间转录组学数据集迅速扩展。 单细胞和空间分辨率转录组学技术的进步导致了复杂数据集的积累,这些数据集包含了细胞特异性和空间组织位置信息。 对这些数据集的进一步分析和解释是必要的。 因此,迫切需要更新LnCeCell,增加额外资源和增强的分析工具。 为了满足这些需求,我们已将LnCeCell更新至版本2.0(LnCeCell 2.0),增加了大量数据并改进了功能。 LnCeCell 2.0的最新更新包括一个新的数据集,该数据集包含来自86种疾病相关表型和80个人体正常器官/组织的数百个scRNA-seq、stRNA-seq和bulk-seq数据集,具有不同的临床随访和治疗选项。 通过与高分辨率组织学图像融合收集上述空间转录组学基因表达数据,可能提高组织病理学的可解释性,并进一步帮助研究ceRNA网络在组织细胞空间结构中的调控机制。 共新识别了836581个细胞特异性和空间点特异性ceRNA相互作用和功能网络,涉及1002988个细胞和367971个空间点。 通过手动整理收集了超过15000个实验支持的lncRNA生物标志物。 此外,LnCeCell 2.0提供了更全面的细胞类型和细胞状态注释,以及ceRNA的亚细胞定位。 这通过从各种已发表来源和其他数据集中手动整理信息来实现。 为了便于数据检索和分析,LnCeCell 2.0开发了一套灵活的工具。 其中包括8个综合分析工具和16个小分析工具。 综合分析工具有助于全面分析ceRNA在不同细胞和空间领域的分布,从而能够研究ceRNA网络在细胞谱系中和在TME内的动态。 此外,小分析工具提供了一系列用户友好的功能,包括标志性注释、生物标志物注释、网络构建、亚细胞和细胞外定位映射、生存分析等,可以作为快速且易于使用的工具。 随着技术的发展,将产生越来越多的生物医学大数据,从而增强我们的研究广度并提高结果的准确性。 未来,LnCeCell数据库将不断维护和更新,增加更多数据集并实施增强服务。 此外,将促进单细胞和空间转录组学与更可靠方法的整合,从而提高组织病理学的可解释性及其在临床决策过程中的应用,指导治疗和预后。 此外,将促进单细胞和空间转录组学与更可靠方法的整合,从而提高组织病理学的可解释性及其在临床决策过程中的应用,指导治疗和预后。 Data availability Para_13 所有数据可以从 http://bio-bigdata.hrbmu.edu.cn/LnCeCell 下载。 Supplementary data Para_14 补充数据可在NAR在线获取。