在小编的印象中,2年前纯生信文章要是发5分以上还是比较容易的。However,不知什么时候,某个审稿人大脑抽筋,要求做实验来验证,现在的纯生信文章想突破5分还是不容易啊!那么今天,我们就来欣赏这个复旦小哥哥生信文章的魅力吧!文章是今年7月15日发的(最新啊!),题目如下:
1、数据集的下载:10个GEO数据库的前列腺癌数据集。
2、差异基因的筛选
说到差异基因,R语言的“limma”包少不了,然后通过RRA(稳健排序整合)方法筛选出10个数据集共有的差异基因,其中上调基因808个,下调基因930个,将TOP20基因用热图展示。
3、差异基因的位置
内圆热图(Circos图)展现TOP100的差异基因的基因表达模式和其在染色体上的位置。这个图形的的制作需要用到R语言的“OmicCircos”包。
4、GO和KEGG功能富集分析
看看小哥哥做的和弦图,超级炫酷!值得一提的是,这种图形的绘制是通过R语言的“GoPlot”包来实现,在百味科研芝士的课堂有非常详细的讲解,小编看完也是受益匪浅啊!(后台回复:“R绘图”,进入直播间)
5、WGCNA分析
1)加权共表达网络分析,寻找与临床相关的关键模块,其中cut-off值设置为module membership (MM) >0.8 and gene significance (GS) >0.3, 根据cut-off值设定,最终选取了20个hub基因。WGCNA分析使用的是“WGCNA”包,学过WGCNA的小伙伴,下面的图应该不陌生吧!
2)由上图分析,可知关键模块是pink模块,于是再针对pink模块进行分析。散点图分析模块成员与基因的相关性,热图分析基因与基因之间的相关性。
3)针对pink模块的基因做GO和KEGG功能富集分析的气泡图,气泡图的绘制同样也能在百味科研芝士的课堂上习得,哈哈,满满的诚意!
6、筛选hub基因
在20个Hub基因中筛选在前列腺癌中几乎没有报道过的4个hub基因,在TCGA数据集中验证它们诊断及预后的价值。
1)前列腺癌癌和正常组织中4个hub基因表达差异的分析
2)不同Gleason评分的前列腺癌组织中4个hub基因表达差异的分析
3)不同T分期(肿瘤大小)的前列腺癌组织中4个hub基因表达差异的分析
4)不同N分期(区域淋巴结转移)的前列腺癌组织中4个hub基因表达差异的分析
5)4个hub基因表达差异与前列腺癌无病生存期(DFS)的关系,生存分析直接用R语言的“survival”包来实现。(生存曲线制作无需赘述,百味科研芝士的精品课程可一掳而得)
7、4个hub基因表达与其甲基化的关系
利用DiseaseMeth version 2.0这个数据库分析基因表达与甲基化的关系,制作箱线图。(DiseaseMeth version 2.0这个数据库小编在百味科研芝士给大家分享过,见公众号读书万卷栏目的“生信网页版神器”)
8、4个hub基因表达与肿瘤免疫浸润之间关系的分析
利用TIMER数据库在线工具分析基因表达与免疫浸润之间的关系,制作散点图。
9、对4个hub基因进行基因集富集分析(GSEA)和基因集变异分析(GSVA)
1)GSEA的实现使用的是R 语言的“clusterprofiler”包
2)GSVA的实现使用的是R 语言的“GSVA”包
得出结论
这4个hub基因可作为前列腺癌诊断和预后的生物标志物。总结起来看,这篇文章的作者小哥哥生信分析的工作量还是比较大的,功力也是相当雄厚的!文章由抽象的差异基因中筛选出hub基因,针对hub基因再进行差异表达分析、甲基化分析、免疫浸润分析,内容十分丰富。最值得点赞的是,这位复旦的小哥哥文章中的图确实是绚丽多彩、美妙绝伦!在此,我也为科研芝士平台点个赞(见公众号精品课程),让我尽收眼底、回味无穷。
最后,让我们总结一下这篇文章的思路图吧~