这才是GEO数据库挖掘的正确姿势。
前阵子,酸谈学社的大师兄Ewen给大家介绍了一个GEO数据集分析工具
shinyGEO
。本期小编就再来给大家介绍一个来自大英帝国的GEO数据分析神器-GeoDiver(https://www.geodiver.co.uk/)。
1
首先,官网的使用界面非常直观简单,不仅可以高质量的作图,还可以做差异表达和基因富集分析。听着就感觉非常666,而其用户体验也确实是更加nice,下面让我们一起去探索学习吧。
跟shinyGEO一样,用户只要输入GEO dataset的编号运行即可。比如网站的举例数据GDS724,输入编号后,网站会自动识别分组因素,包括不同组织间比较或者individual间的比较。
另外,ADVANCED PARAMETERS里还有更多可供选择的参数,包括列表里展示的差异表达基因数目、P value的矫正方法、热图里展示的基因数目、热图聚类的方法,及树状图的展示等等。
2
接下来,我们以individual为例分析下数据挖掘结果:
Overview Boxplot
从此图可以看到表达量的均值还是有波动的,没有完全在一条直线上,说明数据没有进行归一化,而归一化的目的是调整由于基因芯片技术引起的误差。
但在实际的数据分析过程中,数据均值的这条线,只要没有太大的波动,像本例中的情况还是可以用的。如果要进行均一化,一般用平均数或者中位数进行标准化处理,那样处理也更加科学严谨。
主成分分析(Principal Component Analysis)
我们可以看到PC1和PC2两个主成分的解释度超过了60%,按推断应该可以通过主成分的的坐标图将两组分开,实际情况如下:
1)2D图
2)3D图
用户可以自行选择主成分,观察主成分是否能够将两组数据分开,以判断两组样本是否存在差异,本例数据来看,两组间的差异还是比较明显的。
热图(Heatmap)
热图分为两个模块,一个模块是差异表达的基因(很像是Pheatmap的作图风格啊,应该就是它了),另外一个是gene set的富集分析图。不管是差异表达的基因还是富集到的通路,网站都提供搜索功能,可在Table的右侧进行搜索筛选。
富集到的每个通路,用户可以点击如下图所示的红色箭头,查看在KEGG中的通路情况,而且应该是实时的KEGG通路数据(笔者推测,因为加载通路数据时需要一些时间),所以功能还是比较强大的。
火山图
网站作者煞费苦心,画了两个火山图如下。笔者认为火山图就只是一个粗略的展示,并没有太多意义。当然,对于筛选差异表达基因时观察某个基因在整体中的情况,还是有一定帮助意义的。
这个网站能够完成基本的GEO数据分析,就看各位能不能各显神通,用好这个工具啦!可惜的是,这个网站没有加入生存分析的功能,甚为遗憾!不过没关系,我们解螺旋有GEO数据分析的课程,欢迎加入学习!
领取专属 10元无门槛券
私享最新 技术干货