下面看一下利用基因型SNP数据进行PCA计算,以及可视化的分析。
很多软件可以分析PCA,这里介绍一下使用plink软件和R语言,进行PCA分析,并且使用ggplot2绘制2D和3D的PCA图。...可以看到,三个品种在PCA图里面分的比较开,C品种的有两个A和B的点,应该是异常数据。
基因型数据:
共有3个品种A,B,C,共有412个个体。...将其转化为0,1,2的形式
2,计算G矩阵
3,计算PCA的特征向量和特征值
4,根据特征值计算解释百分比
5,根据特征向量和品种标签,进行PCA的绘制
绘制代码如下:
首先,使用plink命令,将基因型数据转化为...读取数据
m012 = fread("plink.raw")
# 保留FID,IID和基因型数据
g012 = m012[,-c(3:6)]
dim(g012)
fid = g012$FID
iid...lty.hide=2,lty.grid = 2)
legend("topright",c("A","B","C"),fill=c('red','green',"blue"))
聚类分析思路