社区首页 >专栏 >图形解读系列 | 散点图也不简单

图形解读系列 | 散点图也不简单

生信宝典

发布于 2020-07-03 08:16:52

2.6K0

识图：先理解每个点是什么（点代表基因、样品、通路或其它的，这个认识可以来自于常识，来自于自己对数据的认识，或来自于文章作者的描述），然后看横轴代表什么、纵轴代表什么，再看图例中展示的其他信息如颜色、大小和形状分别代表什么。这些都理顺了，图理解就不难了。

来源：https://www.r-graph-gallery.com/272-basic-scatterplot-with-ggplot2.html

这是个一般的散点图，展示的是X轴变量Sepal.Length和Y轴变量Sepal.Width，展示的是花萼的长度和宽度的关系。

散点图研究的是两个数值型变量之间的关系，凡是想展示分布状态的都可以使用散点图。它在生物信息分析中有应用广泛，且基于多样的“面貌”，散点图的具体使用形式是根据所需要展现的“故事”来绘制。常见的有：

差异基因火山图：在一般散点图的基础上，根据P value/Q value和log(FC)值给点着色，用以标注需要关注的显著差异点。
功能富集分析泡泡图：一般X轴是对应通路差异基因占通路总基因的比例-Gene ratio（常用的是Odds Ratio），Y轴是富集的通路-Terms/Pathways，颜色变化表述富集显著性程度-Q value，点大小值表示为对应通路差异基因数目-conut（这些对应关系可能会根据需求调整）。
相关性分析散点图：在一般散点图的基础上添加数据趋势线。
抖动图（jitter plot）：一个轴为离散变量，一个轴为数值型变量时，为了避免点之间因数值相同而覆盖，故在离散轴做一些便宜，不改变数值轴，一般结合箱线图展示。
曼哈顿图：曼哈顿图是基因组学中使用的一种特殊类型的散点图。 X轴显示基因组上的基因变异体的位置。不同的颜色表示不同的样本。 Y轴显示的是与表型性状的关联检验的p值。当然也可以用来展示差异基因或差异OTU，如下面的例子。
PCA样品分类图

具体使用

基因表达散点图

原文描述： Dot plot visualization of each cell type in lung single-cell data. The size of the dot encodes the percentage of cells within a cell type, and the color encodes the average expression level
来源文章链接： https://www.cell.com/cell/pdf/S0092-8674(18)30116-8.pdf

Dot plot是单细胞中常用来展示不同细胞簇中代表性基因表达的一个图。

这个散点图来源于一篇cell文章-Mapping the Mouse Cell Atlas by Microwell-Seq。作者分析成年鼠肺组织单细胞数据聚类得到了32个细胞簇（Y轴）。这个散点图的每一列是一个基因，每一行是一个细胞簇，不同颜色表示基因在对应细胞簇的平均表达量。而且相比于热图来讲，这个散点图中点的大小表示对应细胞簇中表达有对应基因的细胞所占的比例，这为结果解读提供了另一维度的信息。

肿瘤大小散点图

原文描述： Tumour volume for individual animals(dots) on the day of euthanasia in the conditions indicated. Data are mean±s.d.
来源文章链接： https://www.nature.com/articles/nature23270

在上图中，Y轴是肿瘤体积大小，X轴有样本基因型分组信息（TCRα和WT）和样本接受的处理信息（GVAX和anti-PD1有无），每个点都是一个样本。*表示组与组之间Student’s t-tests的P值（** P<0.01; *** P<0.001; **** P<0.0001）。其展示优势是体现出检测的样本量。

当检测样本数且样本点趋势一致的时候，可以排布出悦人的性状和展示更高的可信度。此图在简单的散点图还添加了箱线图中的上四分位数、中位数和下四分位数，用以从统计角度地展示肿瘤大小分布情况。

自对照样品或样品两两相比散点图展示

原文描述： Scatterplot of log2FC of genes from Reactome G1 pathway in each Library 1 screen. Each pairwise comparison is indicated by color. Pearson’s productmoment correlation coefficient is indicated (r).
来源文章链接： https://pubmed.ncbi.nlm.nih.gov/29576454/

这个图展示某个通路上的基因在不同样本表达的相对高低和样品内表达的一致性。纵坐标和横坐标都是样本间差异基因比较得到的log(FC)值。这在整合多套数据时可以根据趋势的共性信息互相印证。

Jitter-plot展示差异基因分布

原文描述： Log2 fold relative RNA probe distribution showing differential gene expression from bone marrow-derived macrophages (BMDMs) treated in vitro with mock or Aza+ ITF-2357. Angiogenic pathwayassociated genes are highlighted (microarray, BMDM data representative of n = 3 mice)
来源文章链接： https://www.sciencedirect.com/science/article/pii/S0092867417312448

上图的抖动图jitter plot有着尽量多的二维信息，每个点是一个基因，类似于火山图的一维展示形式，横坐标是log2(FC)，这意味着越往两侧的点，log2(FC)也就越小或者越大，即基因变化倍数越大，同时也可以用颜色标注出几个比较关注的基因，避免直接在图上标记名字而出现标签重叠的现象。

样本突变数目分布

图片描述： Two panels show mutation load for each sample in the dataset for SNVs。 Each dot of the sorted scatterplots shows the total number of mutations pre- and post-filtering per sample. Total mutation counts are separated by total number SNVs per samples. Lighter colors indicate pre-filtered mutations from the controlled-access MAF, and deeper colors indicate post-filtered (PASS only) mutations from the open-access MAF. Cancers are ordered by the median number of post-filtered SNVs per tissue. Furthermore, samples are sorted by increasing number of total mutation count for SNV plot.Samples removed during post-filtering are also shown, i.e., LAML and OV in lighter colors without an accompanying pair and are sorted accordingly. The total number of samples for each cancer type is displayed under each cancer label. Finally, the y axis limits were placed from 0 to 50,000 for clarity. This resulted in the removal of 14 hypermutator samples from SNV plot.
来源文章链接：https://www.sciencedirect.com/science/article/pii/S2405471218300966
这是另一种散点图，是用来展示样本过滤前后的突变数目。
每种癌症所有样品按过滤后的突变数（深蓝点）的中位数排序，浅蓝点表示未过滤的突变数。
图形的亮点再与排序，排序后点就不再是一堆散乱的点，而是一条有序的线，结果展示更清晰