昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题)。由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧。
有很多表达谱芯片我们在分析之后,都可以在分析结果里面看到相对应的基因名。
但是有时候我们在分析完一些芯片的结果之后,并没有看到基因名。例如下面GSE111762这个数据集。我们分析后是这样的:
结果里面只显示了另外一个ID和序列。
这是因为,我们在使用GEO2R进行分析的时候,其实是分两部分的
对于这个数据集,我们如果去看他们的注释文件的话(GPL15314)。会发现里面就是这样显示的:
类似没有基因名的文件,可能是这个芯片在一定时间内有专利保护。人家可以不放出基因名的。这种情况的话~
有可能在分析某一个数据集的时候,我们在做完GEO2R差异表达分析之后,然后发现没有差异基因。这个时候其实首先应该考虑的是:
有时候我们在进行甲基化相关数据检索的时候,发现在甲基化数据下面也是有GEO2R的分析选项的。
这个其实也是可以用的,只不过分析的结果是基于某一个cg探针的结果。由于甲基化是是单一cg的影响可能不会那么大,所以都推荐说整体来评估一段区域的的甲基化改变情况。如果我们是为了找某几个cg来当作标志物的实话其实可以这样来做。但是如果是要评估甲基化整体的影响话,推荐还是正规的方法。目前比较推荐的还是R语言当中的CHAMP
包来进行一个系列流程的分析。
写在最后
关于GEO以及差异表达分析GEO2R能想到的有可能遇到的问题就是这么多,如果还有什么问题,欢迎后台留言探讨。
在我们经过一定的筛选之后,会得到一些差异表达基因。这个时候最常见的套路就是来进行富集分析。对于富集分析,可能很多并不知道是什么。明天我们就来简单的介绍一下富集分析是什么。