Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >图形解读系列 | 散点图也不简单

图形解读系列 | 散点图也不简单

作者头像
生信宝典
发布于 2020-07-03 08:16:52
发布于 2020-07-03 08:16:52
2.6K0
举报
文章被收录于专栏:生信宝典生信宝典

识图:先理解每个点是什么(点代表基因、样品、通路或其它的,这个认识可以来自于常识,来自于自己对数据的认识,或来自于文章作者的描述),然后看横轴代表什么纵轴代表什么,再看图例中展示的其他信息如颜色、大小和形状分别代表什么。这些都理顺了,图理解就不难了。

来源:https://www.r-graph-gallery.com/272-basic-scatterplot-with-ggplot2.html

这是个一般的散点图,展示的是X轴变量Sepal.Length和Y轴变量Sepal.Width,展示的是花萼的长度和宽度的关系。

散点图研究的是两个数值型变量之间的关系,凡是想展示分布状态的都可以使用散点图。它在生物信息分析中有应用广泛,且基于多样的“面貌”,散点图的具体使用形式是根据所需要展现的“故事”来绘制。常见的有:

  • 差异基因火山图: 在一般散点图的基础上,根据P value/Q valuelog(FC)值给点着色,用以标注需要关注的显著差异点。
  • 功能富集分析泡泡图: 一般X轴是对应通路差异基因占通路总基因的比例-Gene ratio(常用的是Odds Ratio),Y轴是富集的通路-Terms/Pathways,颜色变化表述富集显著性程度-Q value,点大小值表示为对应通路差异基因数目-conut(这些对应关系可能会根据需求调整)。
  • 相关性分析散点图: 在一般散点图的基础上添加数据趋势线。
  • 抖动图jitter plot): 一个轴为离散变量,一个轴为数值型变量时,为了避免点之间因数值相同而覆盖,故在离散轴做一些便宜,不改变数值轴,一般结合箱线图展示。
  • 曼哈顿图: 曼哈顿图是基因组学中使用的一种特殊类型的散点图。 X轴显示基因组上的基因变异体的位置。 不同的颜色表示不同的样本。 Y轴显示的是与表型性状的关联检验的p值。 当然也可以用来展示差异基因或差异OTU,如下面的例子。
  • PCA样品分类图

具体使用

基因表达散点图

>

  • 原文描述: Dot plot visualization of each cell type in lung single-cell data. The size of the dot encodes the percentage of cells within a cell type, and the color encodes the average expression level
  • 来源文章链接: https://www.cell.com/cell/pdf/S0092-8674(18)30116-8.pdf

Dot plot是单细胞中常用来展示不同细胞簇中代表性基因表达的一个图。

这个散点图来源于一篇cell文章-Mapping the Mouse Cell Atlas by Microwell-Seq。作者分析成年鼠肺组织单细胞数据聚类得到了32个细胞簇(Y轴)。这个散点图的每一列是一个基因,每一行是一个细胞簇,不同颜色表示基因在对应细胞簇的平均表达量。而且相比于热图来讲,这个散点图中点的大小表示对应细胞簇中表达有对应基因的细胞所占的比例,这为结果解读提供了另一维度的信息。

肿瘤大小散点图

>

  • 原文描述: Tumour volume for individual animals(dots) on the day of euthanasia in the conditions indicated. Data are mean±s.d.
  • 来源文章链接: https://www.nature.com/articles/nature23270

在上图中,Y轴是肿瘤体积大小,X轴有样本基因型分组信息(TCRαWT)和样本接受的处理信息(GVAXanti-PD1有无),每个点都是一个样本。*表示组与组之间Student’s t-tests的P值(** P<0.01; *** P<0.001; **** P<0.0001)。其展示优势是体现出检测的样本量。

当检测样本数且样本点趋势一致的时候,可以排布出悦人的性状和展示更高的可信度。此图在简单的散点图还添加了箱线图中的上四分位数、中位数和下四分位数,用以从统计角度地展示肿瘤大小分布情况。

自对照样品或样品两两相比散点图展示

>

  • 原文描述: Scatterplot of log2FC of genes from Reactome G1 pathway in each Library 1 screen. Each pairwise comparison is indicated by color. Pearson’s productmoment correlation coefficient is indicated (r).
  • 来源文章链接: https://pubmed.ncbi.nlm.nih.gov/29576454/

这个图展示某个通路上的基因在不同样本表达的相对高低和样品内表达的一致性。纵坐标和横坐标都是样本间差异基因比较得到的log(FC)值。这在整合多套数据时可以根据趋势的共性信息互相印证。

Jitter-plot展示差异基因分布

>

  • 原文描述: Log2 fold relative RNA probe distribution showing differential gene expression from bone marrow-derived macrophages (BMDMs) treated in vitro with mock or Aza+ ITF-2357. Angiogenic pathwayassociated genes are highlighted (microarray, BMDM data representative of n = 3 mice)
  • 来源文章链接: https://www.sciencedirect.com/science/article/pii/S0092867417312448

上图的抖动图jitter plot有着尽量多的二维信息,每个点是一个基因,类似于火山图的一维展示形式,横坐标是log2(FC),这意味着越往两侧的点,log2(FC)也就越小或者越大,即基因变化倍数越大,同时也可以用颜色标注出几个比较关注的基因,避免直接在图上标记名字而出现标签重叠的现象。

样本突变数目分布

>

  • 图片描述: Two panels show mutation load for each sample in the dataset for SNVs。 Each dot of the sorted scatterplots shows the total number of mutations pre- and post-filtering per sample. Total mutation counts are separated by total number SNVs per samples. Lighter colors indicate pre-filtered mutations from the controlled-access MAF, and deeper colors indicate post-filtered (PASS only) mutations from the open-access MAF. Cancers are ordered by the median number of post-filtered SNVs per tissue. Furthermore, samples are sorted by increasing number of total mutation count for SNV plot.Samples removed during post-filtering are also shown, i.e., LAML and OV in lighter colors without an accompanying pair and are sorted accordingly. The total number of samples for each cancer type is displayed under each cancer label. Finally, the y axis limits were placed from 0 to 50,000 for clarity. This resulted in the removal of 14 hypermutator samples from SNV plot.
  • 来源文章链接:https://www.sciencedirect.com/science/article/pii/S2405471218300966
  • 这是另一种散点图,是用来展示样本过滤前后的突变数目。
  • 每种癌症所有样品按过滤后的突变数(深蓝点)的中位数排序,浅蓝点表示未过滤的突变数。
  • 图形的亮点再与排序,排序后点就不再是一堆散乱的点,而是一条有序的线,结果展示更清晰
曼哈顿图

曼哈顿图在用于差异基因时表达的意思与火山图类似,但信息更多了一些。此图中每个点代表1个OTU,颜色表示OTU所属的物种分类信息,形状表示其是否显著上下调,大小代表OTU的平均丰度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2025年中盘点:数据挖掘在降温?这些模型依然是科研主力
「数据挖掘,也常被称为生物信息学分析,往往是研究者结合自身课题设计,利用公共数据库深入探索的一种研究方式。这类研究在2019至2022年间一度风靡,成为热门趋势。」
生信菜鸟团
2025/07/03
1350
2025年中盘点:数据挖掘在降温?这些模型依然是科研主力
单细胞文献阅读--胃癌单细胞测序揭示复杂的细胞间相互作用和可选择的T细胞衰竭轨迹
胃癌(GC)的肿瘤微环境(TME)对于肿瘤控制被认为很重要,但 GC 的具体特征尚未完全理解。我们生成了来自 10 位 GC 患者的匹配肿瘤周围组织和血液的 166,533 个细胞的图谱。我们的结果显示,肿瘤相关的基质细胞(TASCs)上调了 Wnt 信号和血管生成的活性,并与生存率负相关。肿瘤相关巨噬细胞和 LAMP3+ 树突细胞参与介导 T 细胞活性,并与 TASCs 形成细胞间互动枢纽。克隆型和轨迹分析表明,Tc17(IL-17+CD8+ T 细胞)来源于组织驻留记忆 T 细胞,并可随后分化为耗竭 T 细胞,这暗示了 T 细胞耗竭的另一种途径。我们的结果表明,IL17+ 细胞可能通过 IL17、IL22 和 IL26 信号促进肿瘤进展,凸显了以 IL17+ 细胞及相关信号通路为治疗靶点治疗 GC 的可能性。
生信大杂烩
2025/05/29
1950
单细胞文献阅读--胃癌单细胞测序揭示复杂的细胞间相互作用和可选择的T细胞衰竭轨迹
扩增子图表解读2散点图:组间整体差异分析(Beta多样性)
作者: 刘永鑫 日期:2017-6-29 阅读时长:10 min 背景介绍(Introduction) 宏基因组学 宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因组、宏转录组和代谢组,其中以扩增子研究最为广泛。 目的意义 本系列文章将带领大家结合较新的16S扩增子相关文献,来理解宏基因组16S扩增子文章中常用图表种类、图中包括的基本信息,以及作者想表达的结果。 主要内容 本系列文章内容包括:箱线图、散点图、热图、曼哈顿图、维恩图、三元图和网络图等。 学习思路 罗列知识点,熟悉专业
生信宝典
2018/02/05
3.8K0
扩增子图表解读2散点图:组间整体差异分析(Beta多样性)
Science杂志高颜值GSEA打分排序图
关于可不可以用差异基因进行GSEA分析,我们前面讨论过:IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗?
生信技能树
2025/02/06
3730
Science杂志高颜值GSEA打分排序图
可视化之为什么要使用箱线图?
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
生信宝典
2020/10/30
3K0
可视化之为什么要使用箱线图?
图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?
热图是一种很常见的图,其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。常用来表示不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。
生信宝典
2020/06/04
7.4K0
图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?
Volcano plot | 别再问我这为什么是火山图
火山图是散点图的一种,它将统计测试中的统计显著性量度(如p value)和变化幅度相结合,从而能够帮助快速直观地识别那些变化幅度较大且具有统计学意义的数据点(基因等)。常应用于转录组研究,也能应用于基因组,蛋白质组,代谢组等统计数据。
生信宝典
2019/12/26
3.8K0
Volcano plot | 别再问我这为什么是火山图
如何试用 R 语言绘制散点图
转录组分析中,计算了两组间差异表达的基因后,通常怎样表示?您可能第一时间想到可以使用火山图。的确,火山图是使用频率最多的,在火山图中可以很轻松地根据基因在两组间的Fold
玩转编程
2022/01/05
1.7K0
单细胞拟时序/轨迹分析原理及monocle2流程学习和整理
在生命演进的过程中机体会随着时间的变化而产生不同的变化。从婴幼儿长大为成年人再到老年人的过程中,我们的身体机能经历了从"弱-强-弱"的变化过程(宽泛的说),以年为单位来看,有可能我们在10多岁的时候一年内一下子长高了几十厘米,也有可能在年过百半之后的某一年内突然感觉自己一下子精力大不如前;而以天为单位来看,虽然我们无法从肉眼上看出每个个体在短短24小时有什么显著变化,但事实上我们身体中的某些细胞有可能已经在这二十四小时内过完了它短暂的一生。
凑齐六个字吧
2024/09/09
2K0
单细胞拟时序/轨迹分析原理及monocle2流程学习和整理
cBioportal中文教程
大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在从多技术平台产生更多的癌症基因组数据。这使得这些数据的整合,探索和分析越来越具有挑战性,尤其是对于没有计算机背景知识的科学家来说。cBioPortal是专门设计来降低对这些复杂数据的接近门槛,因此,促进基因组数据向新的生物学视野,治疗和临床特征的转变。
Y大宽
2018/09/10
5.1K0
cBioportal中文教程
单细胞测序—拟时序分析综合
拟时序分析(Pseudotime Analysis)在单细胞测序(Single-cell RNA-seq)中是一个重要的分析步骤,主要用于研究细胞在发育过程或其他生物学过程中所经历的状态变化。与传统的时间序列不同,拟时序分析不依赖于实际的时间信息,而是通过单细胞转录组数据来推测出细胞状态的动态变化轨迹。以下是进行拟时序分析的几个主要原因:
sheldor没耳朵
2024/08/30
1.5K0
单细胞测序—拟时序分析综合
新TCGA+文献复现里的几种算法
reads计数数据(测序的短片段),会匹配到基因。若匹配到,则匹配到的基因会count+1。(一个基因对应4个read,即count为4)
用户10758803
2024/03/10
4190
一文带你学会如何通过多维度的分析来论证同一个假设
大家好,今天和大家分享的是一月份发表在Cancer cell international (IF:4.175)杂志上的一篇文章,“Multi-dimensional omics characterization in glioblastoma identifies the purity-associated pattern and prognostic gene signatures”,作者通过对于TCGA,CGGA(中国人脑胶质瘤基因组图谱)和GEO数据库中胶质母细胞瘤的患者测序信息进行分析,研究了肿瘤纯度在GBM预后,基因组以及转录组改变和肿瘤免疫微环境中的作用,并构造了一个肿瘤纯度相关的五基因signature。
科研菌
2020/08/20
1.1K0
一文带你学会如何通过多维度的分析来论证同一个假设
生信马拉松 Day8 GEO数据分析课程笔记
广义的基因有6w+个,包括lncRNA、miRNA等等,每年可能都有个别基因增增减减的情况,累计在一起,就存在基因库版本的差异,10年前查到的和今年的可能不一样,所以旧的数据仍然可以有新的解释,同一个数据集也可以在和其他数据集用不同的思路分析
阿呆的月历
2024/01/25
5420
GEO数据挖掘
箱线图:单个基因在组之间的表达量差异,必须知道每个组是对照组还是实验组。R语言中同一个分组对应一个关键词,比如对照组不能写成对照1,对照2,这样就不能把对照归为一类。
浅念
2023/03/27
1.4K0
揭示胶质母细胞瘤中T细胞功能障碍的免疫调节机制:髓系细胞与IL-10的关键作用
该研究的核心主题是探索肿瘤微环境如何影响免疫反应,尤其是在对抗具有高度抗药性的胶质瘤时。研究者对8例患者进行了单细胞RNA测序(scRNA-seq),并对3例患者进行了空间转录组测序(ST)。通过整合scRNA和ST数据,揭示了一种特殊的髓样细胞亚型,这种细胞能够释放白介素-10,表达HMOX1,它在肿瘤微环境中发挥了免疫抑制的作用。这些细胞主要分布在肿瘤的间质样区域,它们导致T细胞功能耗竭,从而助长了肿瘤的免疫逃逸。为了验证这些发现,研究者使用了一个人类胶质瘤的外体新皮质模型。这个模型接种了患者来源的外周T细胞以模拟免疫环境,成功地复现了肿瘤浸润T细胞的功能障碍。研究者发现,通过抑制JAK/STAT信号通路,可以恢复T细胞的功能。这一发现进一步证实了白介素-10的释放是肿瘤免疫逃逸的重要驱动力。这项研究为我们理解肿瘤微环境如何影响免疫反应提供了新的视角,也为开发新的抗肿瘤治疗策略提供了可能的方向。
生信技能树jimmy
2024/02/23
4540
揭示胶质母细胞瘤中T细胞功能障碍的免疫调节机制:髓系细胞与IL-10的关键作用
Nature ecDNA 系列 | ecDNA 如何促进癌症的进化
[ul]- Nucleotide frequency, dinucleotide frequency and trinucleotide frequency - H3K4me3 marks (ENCODE accession: ENCFF191IBA), H3K27ac marks (ENCFF208GHP), H3K4me1 marks (ENCFF759BRD), H3K3me3 marks (ENCFF983DSU) - DNase hypersensitivity sites (ENCFF823HYK) - Replication timing (https://github.com/skandlab/MutSpot/tree/master/features/Ch38), fragile sites (HGNC 2021) and - RepeatMasker long interspersed nuclear element, short interspersed nuclear element, long terminal repeat, simple repeat and DNA transposon annotations from UCSC101.
生信菜鸟团
2024/11/28
4090
Nature ecDNA 系列 | ecDNA 如何促进癌症的进化
2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)
而且通过形态学,WES和RNA-seq数据说明了其研究团队构建的类器官可以比较好的模拟其对应的肿瘤,包括 regional heterogeneity and subclonal architecture ,即使是长期培养的类器官也是如此。
生信技能树
2018/12/18
1K0
2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)
致谢技能树文章:单细胞公共数据库挖掘+实验验证的经典类分析文章
此外,我们生信技能树每个月都有一期带领初学者,0基础的生信入门培训,会有各种贴心的答疑,甚至是新叶老师给你的一对一专属答疑,远程代码演示,快来:最新一期在8月4号,感兴趣的可以去看看呀:生信入门&数据挖掘线上直播课8月班。
生信技能树
2025/08/12
1400
致谢技能树文章:单细胞公共数据库挖掘+实验验证的经典类分析文章
monocle多样本拟时序分析
前面已经是介绍了单个样品的单细胞转录组表达量矩阵的monocle分析,接下来分享一下多样品的时候如何注意个体差异因素。
生信技能树
2024/07/05
4010
monocle多样本拟时序分析
推荐阅读
相关推荐
2025年中盘点:数据挖掘在降温?这些模型依然是科研主力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档