Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >高维数据的展示

高维数据的展示

原创
作者头像
爱学习的小明明
修改于 2020-10-09 07:31:16
修改于 2020-10-09 07:31:16
1.3K0
举报
文章被收录于专栏:R语言学习R语言学习

高维数据的可视化最主要目标就是数据降维

降维方法分线性降维和非线性降维两大类,其中线性降维包括主成分分析PCA,多为尺度分析MDS,非矩阵分解NMF等;非线性方法包括等距特征映射和局部线性嵌套,tSNE等。

主成分分析PCA

主成分分析法采用一个线性变换将数据变换到一个新的坐标系统,使得任何数据点投影到第一个坐标轴的方差最大,在第二个坐标的方差第二大,以此类推。因此,主成分分析可以减少数据的维数,并保持对方差贡献最大的特征,相当于保留低阶主成分,忽略高阶主成分。

R中实现主成分分析需要使用FactoMineR包进行分析,使用factoextra包进行可视化

下面我们先构造数据

df <- iris[c(1, 2, 3, 4)]

df
df

可视化代码

iris.pca<- PCA(df, graph = F) #先进性PCA分析

fviz_pca_ind(iris.pca,

geom.ind = "point", # show points only (nbut not "text")

pointsize =3,pointshape = 21,fill.ind = iris$Species, # color by groups

palette = c("#00AFBB", "#E7B800", "#FC4E07"),

addEllipses = TRUE, # Concentration ellipses 椭圆

legend.title = "Groups",

title="")+

theme_grey() +

theme(

text=element_text(size=12,face="plain",color="black"), #控制所有的文本,但是后面有单独控制axis和title会被后面掩盖,所以这里只对legend有效果

axis.title=element_text(size=11,face="plain",color="black"),

axis.text = element_text(size=10,face="plain",color="black"),

legend.title = element_text(size=11,face="plain",color="black"),

legend.text = element_text(size=11,face="plain",color="black"),

legend.background = element_blank(),

legend.position=c(0.88,0.15)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
tSNE可视化
t-SNE是一种用于探索高维数据的非线性降维算法,非常适合将高维数据降到二维或者三维,在使用散点图等基本图表进行可视化。PCA是一种线性算法,他不能解释特征之间的复杂多项式关系,而t-SNE基于在领域图上随机游走的概率分布来找到数据内的结构。
爱学习的小明明
2020/10/08
1.6K0
tSNE可视化
R语言 主成分分析PCA(绘图+原理)
PCA 是一种较为常用的降维技术,PCA 的思想是将n维特征映射到k维上,这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征。在 PCA 中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身是密切相关的。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的k个坐标轴。
拴小林
2021/05/31
14.3K0
R语言 主成分分析PCA(绘图+原理)
跟着Nature Biotechnology学作图:R语言pca分析并使用ggplot2可视化结果
https://www.nature.com/articles/s41587-022-01440-w#data-availability
用户7010445
2023/01/06
9130
跟着Nature Biotechnology学作图:R语言pca分析并使用ggplot2可视化结果
跟着Nature学绘图(6) PCA分析图表可视化
❝本节来继续进行论文图表复现,主要还是基于「ggplot2」来进行数据可视化 ❞ ❝近期系统整理了一下公众号所写过的一些经典文档,如果需要获取全部代码的欢迎加入小编的VIP交流群,「付费99元,周期一年」群内同步上传代码, 公众号右下角添加微信咨询即可 ❞ 以往案例 本节来复现文章中的Fig3-h 安装并加载R包 package.list=c("tidyverse","ggrepel","factoextra","RColorBrewer") for (package in package.
R语言数据分析指南
2022/09/21
6670
跟着Nature学绘图(6) PCA分析图表可视化
两种让你的样品分组看起来更为合理的方法
如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释。
生信技能树
2024/11/21
1510
两种让你的样品分组看起来更为合理的方法
R语言PCA分析_r语言可视化代码
如果不对数据进行scale处理,本身数值大的基因对主成分的贡献会大。如果关注的是变量的相对大小对样品分类的贡献,则应SCALE,以防数值高的变量导入的大方差引入的偏见。但是定标(scale)可能会有一些负面效果,因为定标后变量之间的权重就是变得相同。如果我们的变量中有噪音的话,我们就在无形中把噪音和信息的权重变得相同,但PCA本身无法区分信号和噪音。在这样的情形下,我们就不必做定标。
全栈程序员站长
2022/11/07
3K0
R语言PCA分析_r语言可视化代码
R语言中的主成分方法:PCA分析和可视化实用指南
主成分分析(PCA)允许我们总结和可视化包含多个相互关联的定量变量描述的个体/观察的数据集中的信息。每个变量都可以被视为不同的维度。如果你的数据集中有3个以上的变量,那么可视化多维超空间可能会非常困难。
简说基因
2025/03/13
1.3K1
R语言中的主成分方法:PCA分析和可视化实用指南
R语言主成分分析可视化(颜值高,很详细)
网络上很多R语言教程都是基于R语言实战进行修改,今天为大家介绍更好用的R包,在之前聚类分析中也经常用到:factoextra和factoMineR,关于主成分分析的可视化,大家比较常见的可能是ggbiplot,这几个R包都挺不错,大家可以比较下。
医学和生信笔记
2023/02/14
1.3K0
R语言主成分分析可视化(颜值高,很详细)
ggplot2画点和连线展示主成分分析的结果简单小例子
https://github.com/Tom-Jenkins/utility_scripts
用户7010445
2021/03/14
1.4K0
R tips:使用prcomp进行PCA降维
PCA分析和可视化常用的是FactoMineR和factoextra的组合,分析和出图都很方便,比如将iris数据集的四个参数降维(示例使用):
生信菜鸟团
2021/02/03
4.5K0
R tips:使用prcomp进行PCA降维
跟着Science学作图:R语言ggplot2画箭头展示变量对主成分的贡献
https://www.science.org/doi/10.1126/science.abk0989
用户7010445
2022/05/23
8060
跟着Science学作图:R语言ggplot2画箭头展示变量对主成分的贡献
PCA主成分分析实战和可视化 | 附R代码和测试数据
一文看懂PCA主成分分析中介绍了PCA分析的原理和分析的意义(基本简介如下,更多见博客),今天就用数据来实际操练一下。
生信宝典
2018/12/29
4.7K0
PCA主成分分析实战和可视化 | 附R代码和测试数据
R可视乎|复合饼图系列
散点复合饼图(compound scatter and pie chart)可以展示三个数据变量的信息:(x, y, P),其中x和y决定气泡在直角坐标系中的位置,P表示饼图的数据信息,决定饼图中各个类别的占比情况,如图(a)所示。
庄闪闪
2021/04/09
1.3K0
高维数据 | R语言绘图基础之主成分分析
在视觉性方面,人类普遍能够感知的是二维和三维空间。对于高维数据的可视化是将高维数据投影到二维或三维空间,去掉冗余属性,同时保留高维空间的数据和特征。说白了,高维数据的可视化就是使用降维度方法,主要分成线性和非线性两大类,关于非线性的非度量多维尺度分析NMDS见往期文章非度量多维尺度分析(NMDS),关于线性的PCA方法,见往期文章PCA做图最佳搭档-ggbiplot,本文主要针对迷弥小粉丝关于绘制线性PCA图数据处理过程遇到的问题进行记录。
黑妹的小屋
2020/08/06
2K0
酷不酷炫!想不想学!带统计学的PCoA完美解决打样本量多组数据不好区分的问题!!
由于高通量测序的价格降的越来越低,现在很多人的研究已经从早期几个、十几个样品的研究发展到了几十、几百、甚至上千个样品,这种确实在以扩增子测序为基础的研究中越发明显。
DataCharm
2021/02/22
1.7K0
酷不酷炫!想不想学!带统计学的PCoA完美解决打样本量多组数据不好区分的问题!!
如何去掉数据中的离群样本?
当我们拿到一组数据想要开始分析时,做的第一件事情就是质控,看一下数据怎么样,是否适用于我们的分析流程,以及某些低表达或极端表达的基因和样本是否应该删除更利于分析结果。今天分享一下如何删除离群样本,并探索一下是否有生物学意义。
生信菜鸟团
2024/05/11
1K0
如何去掉数据中的离群样本?
文献配套GitHub发表级别绘图之本质上是散点图的PCA图
PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法。首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。其实,关键是减少数据集的维数,同时还保持数据集贡献最大的特征,最终使数据直观呈现在二维坐标系。
生信技能树
2022/03/03
5780
文献配套GitHub发表级别绘图之本质上是散点图的PCA图
ggplot2|theme主题设置,详解绘图优化-“精雕细琢”
学习了ggplot2的基本绘图元素ggplot2|详解八大基本绘图要素,可以初步绘制出需要展示的图形,legend可以对图例进行细节的修改ggplot2 |legend参数设置,图形精雕细琢,那theme有什么用呢?
生信补给站
2020/08/06
5.8K0
R绘图笔记 | 二维散点图与统计直方图组合
前面介绍了散点图、柱状图、直方图和核密度估计图,有时候散点图不能很直观的看的出数据的分布情况,这里介绍散点图与统计直方图组合绘制。
DoubleHelix
2020/11/11
1.8K0
R绘图笔记 | 二维散点图与统计直方图组合
网页工具可能没必要使用,但它很适合学习底层原理
它起初是为了解决他们课题组自己的tRNA相关转录组测序表达量矩阵的归一化标准化问题,之前的文章是Quantitative tRNA-sequencing uncovers metazoan tissue-specific tRNA regulation. Nat Commun. 2020 Aug 14;11(1):4104. doi: 10.1038/s41467-020-17879-x. 对应的数据集是GSE141436. 是一个tRNA expression dataset ,里面有 21 different samples from seven mouse tissues ,这样的矩阵确实是超出了我的能力范围:
生信技能树
2023/09/25
2190
网页工具可能没必要使用,但它很适合学习底层原理
推荐阅读
相关推荐
tSNE可视化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档