在往期内容中,我已经和大家讲解了t检验和方差分析(ANOVA)在R语言中如何实现,这里需要注意:使用t检验和方差分析时,需要样本服从正态分布,并且方差齐性,或者经过变量变换后服从正态分布和方差齐性。但是如果我们的数据无论经过怎样的变量变换都达不到正态分布或方差齐性的要求,那么我们就需要使用基于秩次的非参数假设检验,非参数检验主要针对非正态样本,其统计效力会比带参数的假设检验要弱一些。
参考:R绘图系列-带有significant信息的boxplot | showteeth's blog[1]GitHub - const-ae/ggsignif: Easily add significance brackets to your ggplots[2][ggplot2添加p值和显著性 - 简书 (jianshu.com)](https://www.jianshu.com/p/77f12664540b "ggplot2添加p值和显著性 - 简书 (jianshu.com "ggplot2添加p值和显著性 - 简书 (jianshu.com)")")
在前面scRNA分析|使用AddModuleScore 和 AUcell进行基因集打分,可视化中,基因集评分使用小提琴图或者箱线图进行展示,那如何进行统计检验以及添加P值呢?本文主要解决以下几个问题
之前详细介绍了利用R语言进行统计描述,详情点击:R语言系列第三期:③R语言表格及其图形展示、R语言系列第三期:①R语言单组汇总及图形展示、R语言系列第三期:②R语言多组汇总及图形展示
geom_boxplot(position=position_dodge(),width=0.5)+
使用lm/glm/t.test/chisq.test等模型或者检验完成分析后,结果怎么提?
研究者常常要比较两组数据是否有统计学差异,并且要将这种差异在图形上通过线和注释标注出来。
相关系数可以用来描述定量变量之间的关系。相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1)。除了基础安装以外,我们还将使用psych和ggm包。
一、正态分布参数检验 例1. 某种原件的寿命X(以小时计)服从正态分布N(μ, σ)其中μ, σ2均未知。现测得16只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于255小时? 解:按题意,需检验 H0: μ ≤ 225 H1: μ > 225
前面八章介绍了R软件的基础知识,这些知识都是零碎的操作与处理,虽然不能处理一个完整的实际案例,但却非常重要,接下来,主要讲数据挖掘中处理实际案例之前,所需要的一些模型和功能,我们先从传统的统计学开始,
统计学一直是让医学生头疼的课程,文章中各式各样的统计方法让人云里雾里。举个简单的例子,两组之间的比较,该怎么分析?你肯跟会说用t检验,不过t检验一定是正确的吗?是否方差齐性,是否正态分布,这些都是我们要关心的,如果方差不齐,我们该怎么办?如果有很多分组,我们两两之间必要,也要花费很多的时间。那有没有什么快速、高效、准确的方法,能够让我们快速准确绘制统计检验的图形呢?哈哈,今天我们就来学习一下如何用最快最简单的方式完成统计检验和绘制发表级的图片吧!
在实际科研中很多数据是服从正态分布的,例如某一处理下小鼠的生理状况、某一样方内土壤的性质、小学生的身高等。但也有很多是不服从正态分布的,例如两种药物在不同医院的的疗效,这时候由于不同医院医疗水平不同,其治疗效果自然有差异,因此两种药物的数据不再符合正态分布。此外,很小的样本量一般是不能得出总体分布信息的。
定性资料比如等级,毒性,应答等,可以以具有分级的因子的形式表示,比如(+ ++, +++),分别对应因子的1,2,3种水平,这样不同组样本只要看这些数据的等级的排列是否一致就可以判断这两个群体的分布是否有差异(秩和检验)。
发文章,写论文,分组统计检验直方图是最常见和最实用的,你是否还在烦恼如果把图画好,帮你解决困难啦!这里分享下同事新鲜写就的绘图脚本,自带了示例数据,可以一键出图,助力你的科研和学习。
ggpubr是一个广泛应用于学术绘图的R包,可以让我们轻松绘制出用于发表的高质量图形。
#基本统计分析 #整体描述性统计分析,针对数值变量 attach(mtcars) opar = par(no.readnoly=TRUE) d = mtcars[c("mpg","hp","wt")] head(d) #summary #较标准正态分布呈现正偏,且较平。(偏度为正,峰度为负) summary(d) plot(density(mpg)) #describe #多了峰度,偏度等数据 library(psych) describe(d) #分组描述统计,针对数值变量 #aggregate,f
箱线图一般用于可视化基因的表达情况,常化用统计学方法计算组间基因的表达差异情况。以下主要是用boxplot和geom_boxplot
通常先用 lm() 函数对数据建立线性模型,再用 anova() 函数提取方差分析的信息更方便。
生物医学或其他研究论文中的“表一”多为基线特征的描述性统计。使用R单独进行统计,汇总,然后结果复制到excel表中,耗时耗力且易错!
比如研究血型与性格是否独立,如果性格a的血型比例与性格b的血型比例相同,那么统计上独立。
因为书中列举的方法和知识点比较多,没必要全都掌握,会一种,其他的了解即可。我就简要地整理一下我觉得重要的吧。
如何快捷地将前六列的内容直接转换为数值型,还不需要赋值一个新向量跟最后一列拆开?(同一个表中直接转换,前六列数值,最后一列字符)
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用。
在这篇文章中,我们将比较LASSO、PLS、Random Forest等多变量模型与单变量模型的预测能力,如著名的差异基因表达工具DESeq2以及传统的Mann-Whitney U检验和Spearman相关。使用骨骼肌RNAseq基因表达数据集,我们将展示使用多变量模型构建的预测得分,以优于单变量特征选择模型。
R函数:ks.test(),如果P值很小,说明拒绝原假设,表明数据不符合F(n,m)分布。
推荐前往链接:https://www.yuque.com/figureya/figureyaplus/figureya55p,下载压缩包(包含代码、输入、输出文件),跑起来更舒服。
大家对ggplot应该很熟悉,那么围绕ggplot也开发了很多辅助的包,今天给大家介绍下如何在我们绘制的图像上简单的标注差异信息,比如P值、倍数差等。那么需要用到包ggsignif。首先看下安装:
单细胞数据复现-肺癌文章代码复现1https://cloud.tencent.com/developer/article/1992648
但是仍然是会有不少人,不依不饶,一定要得到一模一样的结果,我就在《单细胞天地》号召大家参与创作,其中山东大学的王晶给出来了自己的解释,非常棒!
所有的数据百度网盘链接: https://pan.baidu.com/s/1isKEK1G5I6X90KYqLufmWw
第三单元第十二+十三讲:使用作者代码重复结果 课程链接在:http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53 这一篇会是代码密集型,因为原文
导读:解析肿瘤微环境的方法非常多种,包括CIBERSORT, TIMER, MCPcounter,xCell, ssGSEA, PCA等等,gene signature 也在不断的产生;但是你研究多年的基因是否与肿瘤微环境相关,除了机制实验来证明,还可以通过大量的数据库资料来证明与可视化。
在生物领域我们常常使用R语言对数据可视化。在对数据可视化的时候,我们需要明确想要展示的信息,从而选择最为合适的图突出该信息。本系列文章将介绍多种基于不同R包的作图方法,希望能够帮助到各位读者。
在上一章聚类分群的结尾,为了解释分群的结果,指定了几个基因进行区分,这几个基因就属于marker基因或者叫标志基因,它们是经过反复验证得到的。也就是说,一般看到相关的marker基因,就可以把某个cluster与某种细胞类型对应起来;另外这个思路还可以探索亚群之间发生的微小差异(例如通路激活、分化状态)与基因表达的联系
R 语言在统计分析方面起了很大的作用,并且其开开放性更是促进了大量分析R包的出现。今天我们就不一一去列举相关的R包,而是总结一下R语言自带的统计学函数。 一、统计学数据的生成函数: norm 正态分布 f F分布 unif 均匀分布 cauchy 柯西分布 binom 二项分布 geom 几何分布 diag 对角阵 二、基础的运算函数 abs 绝对值 sqrt 平方根 exp e^x次方 log 自然对数 log2,log10 其他对数 sin,cos,tan 三角函数 sinh,cosh,tanh 双曲
1写在前面 完成了聚类后,我们就要进行差异分析,寻找差异基因了。🥳 由于scRNAseq是高维数据,而且并没有明确的组,你可以选择之前介绍的SC3包等,先进行聚类,然后确定了组后,进行比较,或者采用生物学分组进行比较。😘 本期我们介绍一下常用的一些差异分析方法,再比较各种方法的准确性。🤒 2用到的包 rm(list = ls()) library(scRNA.seq.funcs) library(edgeR) #library(monocle) library(MAST) library(ROCR) 3示
柱状图和箱线图的代码能理解了其实发现好多作图都是可以触类旁通的,小提琴图作为科研结果常用展示图也不可或缺,用ggplot或者vioplot。
连续型变量独立性检验,如果数据分布满足正态分布可以使用t检验,否则使用wilcox检验。
这周曾老师给我分享了一篇文章,TCGA-STAD队列肿瘤样本EBV分型后的差异表达基因出现了上下调数量不平衡,想让我看看是不是样本数量的问题
所以,我让chatGPT帮我罗列了最常见的10个使用R语言进行的统计检验例子,如下所示,以供参考:
这里记录下这本书里我之前不了解的内容,欢迎一起交流!向量的模式作者写了个函数来干这件事,我学习下,登上巨人的肩膀。我的理解,这个是相当于motif,计数最多的元素的意思。
这里我画的确实不咋美观呢【此外,似乎原文的marker不是按照top基因来选的?】
说明没问题,是得到了dataframe;这样:数据准备好了,作图的工具也准备好了,那么我们就开始作图:
❝本节来介绍如何使用ggplot2绘制配对连线云雨图,图形倒也简单主要是细节;小编给了两个案例来进行展示,有循环绘图需求的可以看最后一个案例;❞ 加载R包 library(tidyverse) library(ggsignif) library(gghalves) library(ggsci) 数据清洗 df <- read_tsv("data.xls") %>% filter(year %in% c(1957,2007),continent !="Oceania") %>% select(
最近一段时间的R语言学习笔记,以便于自己学习之用,特记录在博客中,感兴趣的人还可以看看。记录的东西也不一定正确,请大家指教,里面可能会引用到一些别人的资料等,作为学习之用 读书笔记 相关的函数记录与整理 1、source("文件名.r"):调取主程序的文件,在程序结构复杂的时候很有用,可以将一部分复杂的运算主程序放入其中。 2、install.packages("fields"):安装程序包 3、library(fields):导入程序包 4、t(x)转置函数,对于csv中横排的转置很有用 5、dev.o
到目前为止,R语言的数据操作和基础绘图部分已经讲解完毕,换句话说,大家应该已经能将数据导入R中,并运用各种函数处理数据使其成为可用的格式,然后将数据用各种基础图形展示。完成前面这些步骤之后,我们接下来要探索数据中变量的分布以及各组变量之间的关系。
显著性检验方法,通常也被称为假设检验方法,是统计学中用于评估样本统计量是否显著不同于某个假设值的一种重要工具。以下是假设检验方法使用时需要考虑的三个条件的书面化表述:
领取专属 10元无门槛券
手把手带您无忧上云