Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >图形解读系列 | 散点图也不简单

图形解读系列 | 散点图也不简单

作者头像
生信宝典
发布于 2020-07-03 08:16:52
发布于 2020-07-03 08:16:52
2.6K0
举报
文章被收录于专栏:生信宝典生信宝典

识图:先理解每个点是什么(点代表基因、样品、通路或其它的,这个认识可以来自于常识,来自于自己对数据的认识,或来自于文章作者的描述),然后看横轴代表什么纵轴代表什么,再看图例中展示的其他信息如颜色、大小和形状分别代表什么。这些都理顺了,图理解就不难了。

来源:https://www.r-graph-gallery.com/272-basic-scatterplot-with-ggplot2.html

这是个一般的散点图,展示的是X轴变量Sepal.Length和Y轴变量Sepal.Width,展示的是花萼的长度和宽度的关系。

散点图研究的是两个数值型变量之间的关系,凡是想展示分布状态的都可以使用散点图。它在生物信息分析中有应用广泛,且基于多样的“面貌”,散点图的具体使用形式是根据所需要展现的“故事”来绘制。常见的有:

  • 差异基因火山图: 在一般散点图的基础上,根据P value/Q valuelog(FC)值给点着色,用以标注需要关注的显著差异点。
  • 功能富集分析泡泡图: 一般X轴是对应通路差异基因占通路总基因的比例-Gene ratio(常用的是Odds Ratio),Y轴是富集的通路-Terms/Pathways,颜色变化表述富集显著性程度-Q value,点大小值表示为对应通路差异基因数目-conut(这些对应关系可能会根据需求调整)。
  • 相关性分析散点图: 在一般散点图的基础上添加数据趋势线。
  • 抖动图jitter plot): 一个轴为离散变量,一个轴为数值型变量时,为了避免点之间因数值相同而覆盖,故在离散轴做一些便宜,不改变数值轴,一般结合箱线图展示。
  • 曼哈顿图: 曼哈顿图是基因组学中使用的一种特殊类型的散点图。 X轴显示基因组上的基因变异体的位置。 不同的颜色表示不同的样本。 Y轴显示的是与表型性状的关联检验的p值。 当然也可以用来展示差异基因或差异OTU,如下面的例子。
  • PCA样品分类图

具体使用

基因表达散点图

>

  • 原文描述: Dot plot visualization of each cell type in lung single-cell data. The size of the dot encodes the percentage of cells within a cell type, and the color encodes the average expression level
  • 来源文章链接: https://www.cell.com/cell/pdf/S0092-8674(18)30116-8.pdf

Dot plot是单细胞中常用来展示不同细胞簇中代表性基因表达的一个图。

这个散点图来源于一篇cell文章-Mapping the Mouse Cell Atlas by Microwell-Seq。作者分析成年鼠肺组织单细胞数据聚类得到了32个细胞簇(Y轴)。这个散点图的每一列是一个基因,每一行是一个细胞簇,不同颜色表示基因在对应细胞簇的平均表达量。而且相比于热图来讲,这个散点图中点的大小表示对应细胞簇中表达有对应基因的细胞所占的比例,这为结果解读提供了另一维度的信息。

肿瘤大小散点图

>

  • 原文描述: Tumour volume for individual animals(dots) on the day of euthanasia in the conditions indicated. Data are mean±s.d.
  • 来源文章链接: https://www.nature.com/articles/nature23270

在上图中,Y轴是肿瘤体积大小,X轴有样本基因型分组信息(TCRαWT)和样本接受的处理信息(GVAXanti-PD1有无),每个点都是一个样本。*表示组与组之间Student’s t-tests的P值(** P<0.01; *** P<0.001; **** P<0.0001)。其展示优势是体现出检测的样本量。

当检测样本数且样本点趋势一致的时候,可以排布出悦人的性状和展示更高的可信度。此图在简单的散点图还添加了箱线图中的上四分位数、中位数和下四分位数,用以从统计角度地展示肿瘤大小分布情况。

自对照样品或样品两两相比散点图展示

>

  • 原文描述: Scatterplot of log2FC of genes from Reactome G1 pathway in each Library 1 screen. Each pairwise comparison is indicated by color. Pearson’s productmoment correlation coefficient is indicated (r).
  • 来源文章链接: https://pubmed.ncbi.nlm.nih.gov/29576454/

这个图展示某个通路上的基因在不同样本表达的相对高低和样品内表达的一致性。纵坐标和横坐标都是样本间差异基因比较得到的log(FC)值。这在整合多套数据时可以根据趋势的共性信息互相印证。

Jitter-plot展示差异基因分布

>

  • 原文描述: Log2 fold relative RNA probe distribution showing differential gene expression from bone marrow-derived macrophages (BMDMs) treated in vitro with mock or Aza+ ITF-2357. Angiogenic pathwayassociated genes are highlighted (microarray, BMDM data representative of n = 3 mice)
  • 来源文章链接: https://www.sciencedirect.com/science/article/pii/S0092867417312448

上图的抖动图jitter plot有着尽量多的二维信息,每个点是一个基因,类似于火山图的一维展示形式,横坐标是log2(FC),这意味着越往两侧的点,log2(FC)也就越小或者越大,即基因变化倍数越大,同时也可以用颜色标注出几个比较关注的基因,避免直接在图上标记名字而出现标签重叠的现象。

样本突变数目分布

>

  • 图片描述: Two panels show mutation load for each sample in the dataset for SNVs。 Each dot of the sorted scatterplots shows the total number of mutations pre- and post-filtering per sample. Total mutation counts are separated by total number SNVs per samples. Lighter colors indicate pre-filtered mutations from the controlled-access MAF, and deeper colors indicate post-filtered (PASS only) mutations from the open-access MAF. Cancers are ordered by the median number of post-filtered SNVs per tissue. Furthermore, samples are sorted by increasing number of total mutation count for SNV plot.Samples removed during post-filtering are also shown, i.e., LAML and OV in lighter colors without an accompanying pair and are sorted accordingly. The total number of samples for each cancer type is displayed under each cancer label. Finally, the y axis limits were placed from 0 to 50,000 for clarity. This resulted in the removal of 14 hypermutator samples from SNV plot.
  • 来源文章链接:https://www.sciencedirect.com/science/article/pii/S2405471218300966
  • 这是另一种散点图,是用来展示样本过滤前后的突变数目。
  • 每种癌症所有样品按过滤后的突变数(深蓝点)的中位数排序,浅蓝点表示未过滤的突变数。
  • 图形的亮点再与排序,排序后点就不再是一堆散乱的点,而是一条有序的线,结果展示更清晰
曼哈顿图

曼哈顿图在用于差异基因时表达的意思与火山图类似,但信息更多了一些。此图中每个点代表1个OTU,颜色表示OTU所属的物种分类信息,形状表示其是否显著上下调,大小代表OTU的平均丰度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2025年中盘点:数据挖掘在降温?这些模型依然是科研主力
「数据挖掘,也常被称为生物信息学分析,往往是研究者结合自身课题设计,利用公共数据库深入探索的一种研究方式。这类研究在2019至2022年间一度风靡,成为热门趋势。」
生信菜鸟团
2025/07/03
1060
2025年中盘点:数据挖掘在降温?这些模型依然是科研主力
单细胞测序—拟时序分析综合
拟时序分析(Pseudotime Analysis)在单细胞测序(Single-cell RNA-seq)中是一个重要的分析步骤,主要用于研究细胞在发育过程或其他生物学过程中所经历的状态变化。与传统的时间序列不同,拟时序分析不依赖于实际的时间信息,而是通过单细胞转录组数据来推测出细胞状态的动态变化轨迹。以下是进行拟时序分析的几个主要原因:
sheldor没耳朵
2024/08/30
1.3K0
单细胞测序—拟时序分析综合
扩增子图表解读2散点图:组间整体差异分析(Beta多样性)
作者: 刘永鑫 日期:2017-6-29 阅读时长:10 min 背景介绍(Introduction) 宏基因组学 宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因组、宏转录组和代谢组,其中以扩增子研究最为广泛。 目的意义 本系列文章将带领大家结合较新的16S扩增子相关文献,来理解宏基因组16S扩增子文章中常用图表种类、图中包括的基本信息,以及作者想表达的结果。 主要内容 本系列文章内容包括:箱线图、散点图、热图、曼哈顿图、维恩图、三元图和网络图等。 学习思路 罗列知识点,熟悉专业
生信宝典
2018/02/05
3.8K0
扩增子图表解读2散点图:组间整体差异分析(Beta多样性)
Science杂志高颜值GSEA打分排序图
关于可不可以用差异基因进行GSEA分析,我们前面讨论过:IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗?
生信技能树
2025/02/06
3050
Science杂志高颜值GSEA打分排序图
用流星图/彗星图(在此之前还不认识这种图呢!)展示富集分析结果
这幅图来自 2024 年 6 月份发表在 Int J Mol Sci杂志上的文献:《Novel AT2 Cell Subpopulations and Diagnostic Biomarkers in IPF: Integrating Machine Learning with Single-Cell Analysis》。我左思右想没能想到这是个什么图,图的含义当然很好理解,就去问了一下张俊,果然他画过,一下子就从他那里得到了图的名字:流星图(机智如我)。他的笔记见:富集分析流星图?
生信技能树
2025/02/08
3530
用流星图/彗星图(在此之前还不认识这种图呢!)展示富集分析结果
拟时序的正确姿势(拟时序一本通02)
也就是说,我们做拟时序之前通常是要细分亚群到足够深入,需要确定被做拟时序分析的对象是有比较大生物学变化的可能性。但是也有很多文章在使用拟时序分析的时候其实忽略这个前提,就显得很“可笑”,接下来我们就用3个案例来说明一下拟时序的正确姿势,错误示范,还有创新型的应用场景。
生信技能树
2024/03/25
2960
拟时序的正确姿势(拟时序一本通02)
肿瘤免疫浸润评估资源—TIMER
目前已有各种关于免疫浸润的计算方法。我们介绍过CIBERSORT[CIBERSORT零代码分析免疫细胞浸润],它是一种很有影响力的反褶积方法,利用带有预定义的免疫特征矩阵的微阵列数据来估计给定样本中22个肿瘤浸润免疫细胞(TIICs)的比例。
作图丫
2022/03/29
2.4K1
肿瘤免疫浸润评估资源—TIMER
揭示胶质母细胞瘤中T细胞功能障碍的免疫调节机制:髓系细胞与IL-10的关键作用
该研究的核心主题是探索肿瘤微环境如何影响免疫反应,尤其是在对抗具有高度抗药性的胶质瘤时。研究者对8例患者进行了单细胞RNA测序(scRNA-seq),并对3例患者进行了空间转录组测序(ST)。通过整合scRNA和ST数据,揭示了一种特殊的髓样细胞亚型,这种细胞能够释放白介素-10,表达HMOX1,它在肿瘤微环境中发挥了免疫抑制的作用。这些细胞主要分布在肿瘤的间质样区域,它们导致T细胞功能耗竭,从而助长了肿瘤的免疫逃逸。为了验证这些发现,研究者使用了一个人类胶质瘤的外体新皮质模型。这个模型接种了患者来源的外周T细胞以模拟免疫环境,成功地复现了肿瘤浸润T细胞的功能障碍。研究者发现,通过抑制JAK/STAT信号通路,可以恢复T细胞的功能。这一发现进一步证实了白介素-10的释放是肿瘤免疫逃逸的重要驱动力。这项研究为我们理解肿瘤微环境如何影响免疫反应提供了新的视角,也为开发新的抗肿瘤治疗策略提供了可能的方向。
生信技能树jimmy
2024/02/23
4150
揭示胶质母细胞瘤中T细胞功能障碍的免疫调节机制:髓系细胞与IL-10的关键作用
单细胞拟时序/轨迹分析原理及monocle2流程学习和整理
在生命演进的过程中机体会随着时间的变化而产生不同的变化。从婴幼儿长大为成年人再到老年人的过程中,我们的身体机能经历了从"弱-强-弱"的变化过程(宽泛的说),以年为单位来看,有可能我们在10多岁的时候一年内一下子长高了几十厘米,也有可能在年过百半之后的某一年内突然感觉自己一下子精力大不如前;而以天为单位来看,虽然我们无法从肉眼上看出每个个体在短短24小时有什么显著变化,但事实上我们身体中的某些细胞有可能已经在这二十四小时内过完了它短暂的一生。
凑齐六个字吧
2024/09/09
1.6K0
单细胞拟时序/轨迹分析原理及monocle2流程学习和整理
测173个成年人的大脑的102个基因
研究者相信干细胞分裂过程中产生的 somatic 突变,是很多癌症的罪魁祸首。理论上大脑发育过程中的那些细胞分裂,也会伴随着同样的突变过程,所以呢,就会在局部富集一些 somatic 突变。然后作者假设那些somatic突变位点如果发生在已知的明确基因上,而且位点一致,具有germline病理性性突变效果。
生信技能树
2019/03/12
6530
肿瘤外显子测序后的突变与否矩阵也可以模仿转录组的表达量矩阵分析吗
整个流程涉及从原始数据到生物学解释的多个步骤,每一步都对最终的生物学结论至关重要。通过这些分析,研究人员可以更好地理解基因表达变化背后的分子机制,并为进一步的实验研究提供方向。
生信菜鸟团
2024/11/23
2040
肿瘤外显子测序后的突变与否矩阵也可以模仿转录组的表达量矩阵分析吗
空间单细胞转录组cell2location分析流程学习
Cell2location 是一个用于空间转录组学数据分析的工具。它是一个基于贝叶斯统计模型的Python包,旨在利用空间转录组数据和单细胞转录组数据来进行细胞类型的空间解构。通过将单细胞转录组数据中的细胞类型信息投射到空间转录组数据中,Cell2location 可以估算不同细胞类型在空间位置中的丰度分布。
凑齐六个字吧
2024/10/21
3700
空间单细胞转录组cell2location分析流程学习
【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图
英文标题:The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes
生信菜鸟团
2021/04/29
1.2K0
【生信文献200篇】25 2433个乳腺癌患者的173个基因的突变全景图
cBioportal中文教程
大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在从多技术平台产生更多的癌症基因组数据。这使得这些数据的整合,探索和分析越来越具有挑战性,尤其是对于没有计算机背景知识的科学家来说。cBioPortal是专门设计来降低对这些复杂数据的接近门槛,因此,促进基因组数据向新的生物学视野,治疗和临床特征的转变。
Y大宽
2018/09/10
5K0
cBioportal中文教程
手把手带你复现NC图表之Figure 2
非小细胞肺癌中存在的成纤维细胞与非癌性肺组织中确定的三个主要亚群一致,并且可能对ECM维持/重构进行差异调节。这些数据还表明,与NSCLC肿瘤的相互作用导致这些亚群中基因表达的显著变化,除了亚群特异性表型变化外,还持续涉及间质胶原的上调。此外,与对照肺成纤维细胞相比,非小细胞肺癌的myoCAF基因特征增加,而对照肺组织的iCAF基因特征增加。
生信技能树jimmy
2023/09/26
4230
手把手带你复现NC图表之Figure 2
2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)
而且通过形态学,WES和RNA-seq数据说明了其研究团队构建的类器官可以比较好的模拟其对应的肿瘤,包括 regional heterogeneity and subclonal architecture ,即使是长期培养的类器官也是如此。
生信技能树
2018/12/18
1K0
2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)
图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?
热图是一种很常见的图,其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。常用来表示不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。
生信宝典
2020/06/04
7.4K0
图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?
新TCGA+文献复现里的几种算法
reads计数数据(测序的短片段),会匹配到基因。若匹配到,则匹配到的基因会count+1。(一个基因对应4个read,即count为4)
用户10758803
2024/03/10
3840
monocle多样本拟时序分析
前面已经是介绍了单个样品的单细胞转录组表达量矩阵的monocle分析,接下来分享一下多样品的时候如何注意个体差异因素。
生信技能树
2024/07/05
3590
monocle多样本拟时序分析
一文搞定高通量数据整合分析中批次效应的鉴定和处理
批次效应表示样品在不同的批次处理和测量时引入的与生物状态不相关的系统性的技术偏差。很多因素都可能导致批次效应的产生,如不同实验条件、不同操作者、不同公司的试剂、不同批的试剂、实验开展的时间、检测设备、不同的测序批次等。
生信宝典
2022/01/18
2.6K0
一文搞定高通量数据整合分析中批次效应的鉴定和处理
推荐阅读
相关推荐
2025年中盘点:数据挖掘在降温?这些模型依然是科研主力
更多 >
交个朋友
加入前端学习入门群
前端基础系统教学 经验分享避坑指南
加入腾讯云技术交流站
前端技术前沿探索 云开发实战案例分享
加入[后端] 腾讯云技术交流站
后端架构设计 高可用系统实现
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档