step1: 计算资源的准备
如果有差不多配置的服务器,就可以从SRA/FASTQ格式数据开始走全套流程。不懂配置,请看前面转录组和表观组的传送门。
如果只有个人电脑,那么直接下载表达矩阵开始分析也是可以的。
文章是 Annotation and cluster analysis of spatiotemporal- and sex-related lncRNA expression in Rhesus macaque brain , 作者测了 4个年龄段的恒河猴:1年(child),4年(Youth),10年(Adult)和20年(Old); 脑组织新皮质、海马和小脑不同区域(8个),两种测序模式(RNA-seq and CAGE-seq),两种性别,总计(4X8X2X2)128个样本。所以作者分析可以mRNA和lncRNA在时间,空间以及性别上面的区别。
里面关于数据和方法写的很清楚:
RNA-seq and CAGE-seq data have been submitted to the NCBI Gene Expression Omnibus (GEO; https://www.ncbi.nlm.nih.gov/geo/) under accession number GSE87182. The modified WGCNA code and co-expression network and data are available in the Supplemental Material can be downloaded from GitHub (https://github.com/DChenABLife/RhesusLncRNA).
而且里面详细的列出了数据处理方法,使用到的软件,参数,以及步骤,希望大家仔细研读清楚。
这个物种是 Macaca mulatta ,这里我们只分析转录组测序数据, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE85377
这一步仅限于有服务器的朋友,没什么好说的了,在转录组,表观组我们都已经详细讲解了。
SRA—>FASTQ—>BAM—>COUNTS 这几个步骤而已,中间穿插一些质控的手段,每个步骤选择好合适的软件即可。可以参考:一个植物转录组项目的实战 http://www.bio-info-trainee.com/2809.html
因为物种比较特殊,所以上游分析的时候需要选择的参考基因组,参考注释文件都会比较麻烦。
幸运的是作者上传了他上游分析后得到的表达矩阵,大家只需要下载即可:
ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE85nnn/GSE85377/suppl/GSE85377_All_sample_merged_RPKM_ed.xlsx
目前已发现的lncRNA的数量接近mRNA(GENCODE V25, http://www.gencodegenes.org),lncRNA具有scaffolds,molecular sponges等基因调控功能机制,是重要的表观和转录调控因子。尽管lncRNA普遍低保守和低表达,lncRNA却具有明显的tissue和 stage-specific表达特征,因此被认为参与调控不同的生物学功能,尤其是细胞分化和发育。
很明显,得到了表达矩阵之后,根据上面的样本信息,可以按照年龄,性别,取样部位来进行分组找差异。
可以参考:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts
因为样本数量比较可观,所以可以进行WGCNA分析。这里是并不需要选取所有的基因来做WGCNA分析,挑选的标准可以是top变异程度大的基因集合,或者显著差异表达的基因集合等等。
这里可以参考:https://github.com/jmzeng1314/my_WGCNA
WGCNA将lncRNA分成18个模块(3635个lncRNA),空间模块中lncRNA表达呈现明显的组织区域特异性,如:CB (M1, 794个lncRNAs),DG/CA1 (M2, 443个lncRNAs), CA1 (M4, 369个lncRNAs),neocortex (M7, 123个lncRNAs)和OC (M10,57个lncRNAs)。
时间模块中lncRNA表达与年龄有关,而与组织区域不明显;性别模块中lncRNA表达与性别和年龄都相关。
每个模块就必须做pathway/go等数据库的注释分析咯!
基于皮尔森相关性分析,对9904个lncRNAs和26654个 mRNAs进行计算,结果发现5084个lncRNAs和18418个mRNAs 形成了3341261个共表达基因对;例如,lncRNA MIAT与237个mRNAs和93个lncRNAs有共表达关系,对MIAT相关的mRNA进行富集分析,显示MIAT涉及neuroactive ligand-receptorinteraction, dopaminergic synapse, glutamatergic synapse等生物学功能。
对每个lncRNA模块相关的mRNA进行EnrichedGene Ontology (GO) terms和KEGG pathways研究,从而可以发现模块基因集相关的生物学功能,如M1 lncRNAs (CB module)最显著富集于 Fanconi anemia 通路。
这个套路在TCGA数据库里面已经被玩烂了,大家可以去数据库里面搜索看看。
这个时候已经不是表达矩阵的事情了,要从新从fastq测序数据开始。
对测序后的fastq数据进行转录本的组装。基于组装后的转录本,通过数据库注释去掉编码蛋白质的mRNA以及数据库中收集的已知的lncRNA,对剩余的转录本进行生物信息学分析,最终鉴定出全新的lncRNA,作为后续研究的起点。
lncRNA具有一系列独特特性,这些特性与编码蛋白质的mRNA有或多或少的区别。需要将鉴定出的新lncRNA与数据库中的lncRNA以及蛋白质编码基因属性进行比较,从而确定它们是否为真正的lncRNA。
这些属性包括,转录本长度,表达水平,保守性(外显子和内含子),GWAS SNP的富集等等。如果这些属性与已知的lncRNA类似,且与蛋白编码基因差别大则说明鉴定出的lncRNA为真正的lncRNA。
lncRNA到底能不能翻译,还得看其自身先天条件——是否具有核糖体结合位点;是否具有开放阅读框(ORF)。只有两种条件都符合(满足开放阅读框,核糖体结合位点),并且翻译的多肽在物种间具有一定保守性,那么该lncRNAc才算是有了翻译的本钱。
1.DIANA-LncBase v2——http://www.microrna.gr/LncBase
2.LNCediting——http://bioinfo.life.hust.edu.cn/LNCediting/
3.NPInter v3.0——http://www.bioinfo.org/NPInter/
4.lncReg——http://bioinformatics.ustc.edu.cn/lncreg/
5.LNCipedia v4.0——http://www.lncipedia.org
6.LncRNAMAP——http://lncRNAMap.mbc.nctu.edu.tw/
Lnc2Meth (http://www.bio-bigdata.com/Lnc2Meth/) 就是一个基于已有发表文献结果,对其中涉及到在特定研究疾病中的lncRNA及其甲基化结果进行了整理归纳收录的数据库。其中,对于每一个lncRNA都会提供DNA甲基化区域、类型和调控机制,而其是否在文献报道中有作为诊断分子以及其发表文献信息等都有整理。
lncSNP2.0 (http://210.46.80.146/lincsnp/search.php) 当仍不让的成为大家的首选工具,它是由华中科技大学研究人员开发的专门收录lncRNA和SNP关联信息的数据库,包含人和小鼠两个物种。
RegRNA2.0 (http://regrna2.mbc.nctu.edu.tw/index.html) 是由中国台湾同胞所研发的,专用来预测RNA功能性的motif序列,其预测内容包含转录motif、mRNA降解原件、RNA-RNA结合、翻译预测等功能。
这些知识没什么好说的,主要靠看文献,自己收集整理。
希望大家主要了解这8个方面:LncRNA的定义、LncRNA的发现、LncRNA的分类、LncRNA的功能、LncRNA的作用模式、LncRNA的争议、LncRNA的常用数据库以及LncRNA的研究模式。参考:http://www.biotrainee.com/thread-2485-1-1.html