当我们做了RNA-seq差异基因分析以及一系列的富集分析后,希望我们得到的差异基因集富集的通路或者转录因子,可以在其他公共数据集或者文献中得到验证。或者获得更广泛的研究思路,那么就可以进行公共数据集相似性分析。这种分析策略主要服务于研究目的。无论是关注是更聚焦在一个疾病中,一个细胞类型中还是在一个基因相关性中。都可以从富集结果中进行进一步筛选。这样我们就可以从汇总的公共数据库挖掘与验证候选的转录因子或者通路或者研究疾病。
RummaGEO(https://rummageo.com/):这是一个网络服务器应用程序,可以对存储在GEO中的所有人类和小鼠RNA-seq研究进行基因表达特征搜索。为了实现这样的搜索引擎,研究者对来自ARCHS4数据库的统一比对GEO研究,进行了离线自动条件识别,然后计算差异表达特征,并从这些特征中提取基因集。总计,RummaGEO目前包含来自30576个GEO数据集(人类178,975个和小鼠203,427个基因集)。总体而言,RummaGEO为生物医学研究界提供了一个前所未有的资源,为许多未来的研究提供了假设生成的可能性。
Rummagene:(https://rummagene.com/)是一个基于PubMed Central(PMC)文献的基因集挖掘与分析平台,通过自动化软bot从补充材料中提取人/鼠基因集,解决传统研究中基因数据难以检索和复用的问题。截至最新统计,平台已扫描710万篇PMC文献,识别出172,090篇含基因集的论文,累计收录916,688个基因集。核心功能包括智能检索系统(支持自由文本查询和表格标题检索,提供用户自定义基因集的相似度匹配)、多维分析工具(转录因子/激酶富集分析、单细胞RNA-seq细胞类型预测、基因功能注释推断)以及跨文献关联发现(结合基因集相似度与文本相似度,揭示生物学过程间的潜在联系)。数据更新频率为每周自动同步PMC新文献,访问方式为Web服务器,数据格式支持标准化基因列表(兼容GSEA格式导入)。
步骤1:输入基因集
步骤2:查看匹配的基因集结果。如下图所示,在178,975个基因集中,共有83,468个基因集有显著性富集。结果可以通过下载按钮进行下载,也可以点击表格中具有下划线的文字进行GEO数据集的查看。
步骤3:对富集的前5000个GSE数据集基因进行概括,就是这些基因集在多层次的富集分析结果。1是疾病与表型富集结果。2是分子类型。3是组织细胞.4是通路与生物学过程。
步骤4:对富集的前5000个GSE数据集基因进行Enrichr terms富集分析。
步骤5:筛选与特定疾病相关的GEO数据集。由于我们进行差异基因集研究时候,这个数据集通常来自特定类型,如细胞类型、疾病类型、组织类型等等。这样更好的找到符合我们要求的数据集进行下游调控转录研究。因此我们这里在输入框填写了SLE。系统性红斑狼疮。基因集从八万多个减少到1851个基因集。这个时候我们对表格结果进行下载。然后在电子表格中进行进一步筛选。如选择细胞类型或者基因名称等筛选。
步骤6:对SLE相关的富集的前5000个GSE数据集基因进行普通富集分析。依然是四个模块,比较下与之前不加SLE筛选条件下的结果对比。如下图所示。疾病类型肯定是SLE。因为加了筛选条件。分子类型是干扰素相关的,与之前的8万富集基因集结果相同。细胞类型富集与之前的类似。但通路与生物学过程富集与之前不同。首要富集在免疫应答上,而不是凋亡中。
步骤7. Enrichr 富集分析结果:富集结果更聚焦在与SLE 免疫细胞相关的条目中。
2.Rummagene
步骤1.输入基因集。
步骤2:查看结果:如下图所示,提交的基因集在在20641个PMC文献表格中的基因集中有交叉富集。有些文献有多个表格中出现这些基因。
步骤3:对富集的文献表格进行过滤筛选:通过关键字对表格内容进行筛选,如下图所示,lupus筛选后,只有335个表格信息。我们如果要进一步研究这些与提交基因集相关的文献与表格,可以点击Paper 的PMCID号进行查阅。