GEO有火山图、箱线图、热图、PCA、散点图
输入数据是数值型矩阵/数据框
颜色的变化代表数值的大小
输入数据是一个连续型向量和一个有重复值的离散型向量
箱线图的上下5条线代表散点图的分布。
箱线图:单个基因在组之间的表达量差异,必须知道每个组是对照组还是实验组。R语言中同一个分组对应一个关键词,比如对照组不能写成对照1,对照2,这样就不能把对照归为一类。
对于有差别的基因用logFC和p-value来看区别
表达芯片的差异分析我们得到的矩阵已经是log后的矩阵,所以logFC=处理组的数据平均值-对照组数据的平均值
Notice: logFC>1500说明处理组比对照组上调了无穷大的倍数,这说明处理数据时可能没有取log。
通常所说的上调、下调基因是指表达量显著上升、下降的基因。(显著和p-value相关)
我们所说的上调或显著性是根据我们自己设置的阈值来判断
旨在利用降维的思想,把多指标转为少数几个综合指标(即主成分)。根据这些主成分对样本进行聚类,代表样本的点在坐标轴上的距离越远,说明样本差异越大。
在生物分析中,多指标指的是多个基因,综合指标并没有明确意义。
每个点代表每个样本,点与点之间的距离代表两个样本之间的差异性。
横纵坐标是主成分1和主成分2,括号里的数之和解释数据变化的百分之多少,两者之和能解释60%就已经很好了,但我们一般不看这些数。
我们可以看到中间有一个点很大,这个不是样本,而是中心点。
左上我们可以看到蓝色组内没有聚成一簇,可以继续分析蓝色组内是否存在差异基因
左下每个组只有3个样本,没办法画圈圈。
右边发现组间差别小,那就没必要再做正式实验了。分析完PCA就可以去做热图了
实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象。
notice:差异分析是两组之间的比较,看logFC
思路:有差异的材料-差异基因-找功能/关联-解释差异,缩小基因氛围
NCBI上的gene expression omnibus(GEO),里面有网页工具“GEO2R”。优点是不用学编程语言,简单;缺点是需要一个一个点,不能批量操作。
提交给GEO的有样本数据(GSM)、一个完整的研究并提供整个研究的描述,包括对数据的描述,总结分析(GES)、用户测定表达量使用的芯片/平台(GPL)。
探针的表达量来代表基因的表达量。
探针是与基因互补杂交的序列。现在的核苷酸探针有25、60甚至更长。
找数据,找到GSE编号-下载数据(表达矩阵、分组信息和GPL编号)-数据探索(分组之间是否有差异、PCA、热图)-差异分析及可视化(P值、LogFC,火山图、热图)-富集分析KEGG、GO
不同文章可以分析同一组数据,但方法不一样
一行是一个探针id,一列是一个样本编号(GSM)
探针id最后转换成基因名称
样本编号要归结到分组信息
输入数据是差异基因的entrezid id(id可以用symbol基因名来表示,也可以用entrezid(富集分析指定用)来表示)
把基因及表达信息作为一个整体的网络。研究基因在哪些通路上。
细胞组分
分子功能
生物过程
第一列是通路,gene id是在该通路上的基因id,count 代表在该通路上基因的数目。
generatio: A/B A:差异基因中有多少属于这条通路;B:差异基因中有多少个被数据库收录
bgratio:A/B A:该通路总共有多少个基因;B:数据库总共收录了多少个基因。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。