当前搜索ROC曲线一般跟机器学习相关联,导致我对它的概念有了曲解,理所当然地以为它只是一个用于机器学习的分类器评估标准,所以在绘制曲线前使用逻辑回归(我的响应变量是0-1类型)对数据建模分析。...对于0,1两类分类问题,一些分类器得到的结果往往不是0,1这样的标签,如神经网络得到诸如0.5,0.8这样的分类结果。...还有在类不平衡的情况下,如正样本有90个,负样本有10个,直接把所有样本分类为正样本,得到识别率为90%,但这显然是没有意义的。如上就是ROC曲线的动机。...tidyverse包已经安装,写法遵从tidyverse语法,涉及不少管道操作,如果你只想使用,直接拷贝运行即可,如果想要理解过程,需要dplyr使用和编程(列举一篇笔记)的一些知识。...,相关参数可没有打引号,注意下~ 左边第一列不用管,是一个无意义的行名,结果共有7列,而画图只需要最后的三列。
刚开始我搜索ROC曲线一般跟机器学习相关联,导致我对它的概念有了曲解,理所当然地以为它只是一个用于机器学习的分类器评估标准,所以在绘制曲线前应当使用逻辑回归等模型对数据建模分析。...对于0,1两类分类问题,一些分类器得到的结果往往不是0,1这样的标签,如神经网络得到诸如0.5,0.8这样的分类结果。...还有在类不平衡的情况下,如正样本有90个,负样本有10个,直接把所有样本分类为正样本,得到识别率为90%,但这显然是没有意义的。如上就是ROC曲线的动机。...tidyverse包已经安装,写法遵从tidyverse语法,涉及不少管道操作,如果你只想使用,直接拷贝运行即可,如果想要理解过程,需要《dplyr使用和编程》(列举一篇笔记)的一些知识。...,相关参数可没有打引号,注意下~ 左边第一列不用管,是一个无意义的行名,结果共有7列,而画图只需要最后的三列。
上一篇文章 Github带有全套代码分享的文献复现2025 中我们学习了 作者使用MAD方法对低质量细胞进行过滤,今天来看看数据标准化部分作者给出的不进行 UMI count 或者线粒体基因回归的原因,...,search = T) head(rna@meta.data) AddModuleScore函数得到的各个打分结果如下: 将 PC1 添加到metadata中并计算它与各种细胞的相关性 # Add...inferCNV判断:PC1 correlated with CNV events/Malignancy 1、cnv之前的降维聚类 dims我这里直接改成了20,作者用的50,这里问题不大: rna <.../rna_predoublet_FailedCNVTest.rds") } 作者给出的不进行 UMI count 回归的步骤真的好复杂啊,他先后判断了PC1与UMI count、各种细胞打分、以及CNV...事件的相关性,这里确定都是相关的,最后才没有进行:rna <- ScaleData(rna, features = all.genes,vars.to.regress = "nCount_RNA")。
接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!...(贼笑中) dplyr包 R语言中最为重要的包(之一)! 它可以让数据分析功能更加强大,代码更加简洁。你可以随心所欲的操作它,使用它获取你想要的数据,而且它的语法非常简单,非常直白。...找不到对象vnew” summarise( ) 计算统计数据 summarise(df,sum(v1)) sample_n(df,1000) 随机抽取1000条数据 sample_frac(df,0.7...找到合适的packages并学习使用它,绝对会让我们数据分析工作事半功倍! 我们有没有发现dylyr包中函数使用的一些规律? 有的!...作为课代表的我来帮大家简单的总结一下: 我们都知道R有个令人诟病的缺点就是跑起来耗内存,data.table相对于dplyr 更快、更节省内存了!
各位科研小伙伴,是不是经常遇到这样的情况:看到论文里一个超级赞的图,结果作者既没有标明图的类型,也没提供相应的代码?只能干瞪眼,到处求源代码 接下来,小编就要教你一招绝活。...requireNamespace("dplyr", quietly = TRUE)) install.packages("dplyr") if (!...requireNamespace("dplyr", quietly = TRUE)) install.packages("dplyr") if (!...tip.label), y = Count, fill = KO)) + geom_bar(stat = 'identity', position = position_dodge(width = 0.7...最终运行结果 如果你需求修改配色,也可以用以上"对话式"的方法让ChatGPT帮你修改配色! 这个结果对于我们的目标,还有一些些小差距,但是我们基本可以按照这个思路来进行复现了
## lag(): dplyr, stats 注意一下你导入tidyverse包时给出的冲突信息(Conflicts),它告诉你dplyr覆盖了R基础包中的函数。...如果你想要在载入tidyverse包后仍然使用这些函数,你需要使用函数的全名stats::filter()和stats::lag()进行调用。...,只含TRUE和FALSE fctr代表因子,R用它来代表含固定可能值的分类变量 date代表日期 dplyr基础 这部分我们学习5个关键的dplyr函数,它可以让我们解决遇到的大部分数据操作问题:...所有的动词工作都非常相似: 第一个参数都是数据框 随后的参数描述了使用变量名(不加引号)对数据框做什么 结果是一个新的数据框 这些属性一起便利地将多个简单步骤串联起来得到一个复杂的操作(结果)。...dplyr从不修改输入数据,所以如果你想要保存数据,必须使用<-进行赋值: jan1 <- filter(flights, month == 1, day == 1) R要么输出结果,要么将结果保存到一个变量
昨天公众号后台有人留言作图,示例图如下 image.png 我选择使用R语言的ggplot2来实现,这个是箱线图和热图的拼接,右侧的热图可以借助geom_point()函数实现,将点的形状改为正方块,数值按照正负来映射颜色...继续昨天推文的内容 R语言ggplot2绘图单元格为方块的热图—1—调整图例的位置(点击蓝色字体直达昨天的推文) 今天的推文记录一下如何实现这个热图 首先构造一份数据集 set.seed("20200407...example.csv",header=T) head(df) df1<-reshape2::melt(df,id.vars="Sample") head(df1) image.png 构造数据 library(dplyr...~ "[-1,-0.7)", value >= -0.7 & value 0.7,-0.5)", value >= -0.5 & value < -0.3 ~...暂时不知道了,手动编辑吧,可能得费一些时间 image.png 这样手动调整还挺费时间的,今天就先到这里了,好好想想有没有用代码实现的办法,欢迎大家留言讨论呀!
1写在前面 前面写了superheat的教程,今天写一下第二波,如何进行聚类以及添加注释图吧。 分分钟提升你的heatmap的颜值哦!...我们来试试提取一下聚类的结果吧。...有时候你可能会有自己想要的聚类结果,手动定义一下吧。...常用的类型有以下几种,我们一起看看吧。...with mpg", yt.axis.size = 14, yt.axis.name.size = 14, yt.plot.size = 0.7
的内容复现,还是按照作者的思路先进行RNA的解析代码。...作者在文章中比较好的就是把分析的整体思路进行了流程图的绘制,可以在自己用哪个部分的时候去找相关的代码进行改写。...::group_by(RNA_snn_res.0.7) %>% dplyr::count(SingleR) ##rep:R中生成重复序列的函数repcluster.ids 的堆叠图,也是与传统的seurat出来的图可以更多的放一些markergene。...这里面还是比较佩服作者的其中一个循环,去判断相关性的深度,用了是否函数,然后进行判断,进行不同的数据集的保存,这样其实可以减少很多手动尝试的过程,减少了后续的工作量,也是我目前需要学习的。
网站提供搜索功能,可以搜索需要的图形类型,例如heatmap ? 3. 每一个图形都给出了代码 ? 4. 将代码复制到Rstudio中逐条运行 ? 2....安装所需要的包 ? 2. 载入相关的包 ?...3.绘制词云 # Change the shape: wordcloud2(demoFreq, size = 0.7, shape = 'star') # Change the shape using...最基本的气泡图 geom_point() data % filter(year=="2007") %>% dplyr::select(-year) # Most basic...bubble plot ggplot(data, aes(x=gdpPercap, y=lifeExp, size = pop)) + geom_point(alpha=0.7) ?
今天在我的应用程序中使用Bottom Sheets。...string/bottom_sheet_behavior" app:behavior_peekHeight="0dp" /> 当我将peek高度从这个xml更改为120dp时,我得到了正确的视图...但是当尝试从java做同样的事情时,我会得到不同的结果,即高度小于xml。...bottomSheetBehavior.setPeekHeight(120); 出现这样的问题是当然的,setPeekHeight()(以及许多其他大小/维度相关的方法)为其参数获取像素值。...执行此操作的最佳方法是定义dimen资源值,然后在代码中获取它: 120dp 然后在代码里写 int peekHeightPx
一、案例介绍 这是一个典型的利用当前流行的机器学习算法来进行生物数据挖掘的案例,非常具有代表性。 同样的算法可以应用在其他不同肿瘤研究中。...这是一份来自威斯康星州采集的乳腺癌数据集。这个数据集中包含699个细针抽吸活检的样本单元,其中458个(65.5%)为良性样本单元,241个(34.5%)为恶性样本单元。...cluster_cols = F) nrow(x) #进行抽样,df分成df.train与dr.validate set.seed(1234) train 0.7...http://vassarstats.net/clin1.html 结果截图 二、预测新数据 library(dplyr) newdata dplyr::sample_n(x,5)...大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。原地址暂未启用(bioinfoer.com)。
,根据每个决策树的结果投票确定标签;输出标签结果,并给出OOB rate随机的含义在于样本和特征是随机选择去构建决策树,这可以有效避免偏差,另外弱分类器组成强分类器也即是多棵决策树组成森林能提升模型效果...多次建模选择最佳特征数目(基于OOB rate)上述模型选了所有32个特征用于建模,这是单次建模的结果,为了更好确定最佳特征数目,采用五次建模的结果寻找最小OOB rate对应的特征数目作为最佳特征数目...:从OOB的结果看,每次建模的数值都会存在波动。...该处没有对自变量进行标准化,本来是要做的,但考虑到每个指标所含有的临床学意义,就使用了原始值。...本文评估仅给出混淆矩阵和ROC曲线。
,下面就开始了作者想要的个性化分析,我下载了patient1的cellranger的gz数据,来进行作者的代码复现。...,我没有找见作者提供的注释文件,因此我做了部分的复现############################################################ Matt Regner# Franco.../Homo_sapiens.GRCh38.86.txt"doublet.rate = 0.0460SAMPLE.ID = "endo_3533EL"下面是一般的分析流程,我将从这里开始进行大致的复现。...,我没有找到,因此后面有这样的内容,我都没做immune.stromal 我没有找见作者提供的注释文件,因此我做了部分的############################################################ Matt Regner# Franco
对于单基因,你如果要做富集分析,有两种思路: 批量计算和这个基因相关的其他基因,把其他基因进行富集分析,这个富集分析结果就可以近似的看做是单基因的结果 根据这个基因的表达量进行分组,然后做差异分析,用差异基因做富集分析...没有经过任何转化,所以我们先进行log2转换。...我还没找到比这更快的方法!...最后筛选P值小于0.05和相关系数大于0.7的mRNA(这个东西没有标准,只要你能解释得通就行!)...我对它很好奇,让我们看看它是谁!
This is a great place to stash QC stats# PercentageFeatureSet:计算属于每个单元格的可能特征的一个集合的所有计数的百分比rna[["percent.mt...reductions$pca@cell.embeddings[,1]count_cor_PC1 给出相关系数一个值..."# Visualize clusters and SingleR annotations ##这个是比较通用的可视化的代码DimPlot(rna,group.by = "Sample",label =...::group_by(RNA_snn_res.0.7) %>% dplyr::count(SingleR) ## rep函数可以让不同的元素重复多次cluster.ids % dplyr::filter(RNA_snn_res.0.7 ==i) %>% arrange(desc(n))
,并且采用了tidyselect的做法,支持all_nominal()这种选择语法,非常方便的选择想要执行操作的列。...没有结果变量的数据集,也是可以通过这种方式预测的: # 构造一个没有结果变量的数据集 tmp select(-children) |> slice_sample...下面就来演示~ 在训练集中训练模型,因为这个算法不复杂,我们也没进行特别复杂的操作,所以还是很快的,在我电脑上大概2秒钟。。。.../www.yuque.com/ayueme , 查看更多内容,我的博客里给出了非常多tidymodels使用的例子,这些内容目前还没有搬到公众号上来,可以帮助大家更进一步了解这个包。...另外,对于超参数调优的部分感觉不如mlr3做得好,很多超参数的名字、类型、取值等很难记住,并且没有明确给出查看这些信息的函数,经常要不断的用?xxx来看帮助文档。。。
绘制省级地图 首先,使用 regionNames()导入浙江省各市的名字。dem_data 可以是读者想要填充在地图上的数据(例如:各市的 GDP,空气质量指数等数据)。...#加入框边界及颜色 addPolygons(stroke = TRUE, smoothFactor = 2, fillOpacity = 0.7...下面绘制的温州市地图做了一些小小的拓展。1. 使用真实案例数据;2. 填充颜色变化。数据处理方面主要是用 dplyr 包的 full_join(),具体细节就不做过多介绍了。...但是本推文的省市级绘图还存在几个问题,小编还没有能力通过代码解决:1. 如何凸显各市/县的名字到填充颜色上方?2....有些市、县发生变化(从县变为区),但 leaflet 包没有及时更新,应该如何处理? 以上是小编在实际科研中存在的问题,我的“笨”办法是:画图细节不会改?那就用 AI 吧!。
以下代码用到3个R语言包 分别是ggplot2 用来画图RColorBrewer 用来生成颜色dplyr 用来整理数据 ggplot2和dplyr如果是第一次使用需要安装,安装用到的命令是 install.packages...image.png 接下来我们就来看看分别可以用哪些图来展示这样的数据 带误差线的柱形图 首先是对数据集进行转换 library(dplyr) df1<-summarise(group_by(data,...image.png 画图 library(ggplot2) ggplot(df3, aes(Status,`mean(CRP)`))+ geom_col(aes(fill=Status),width=0.7...image.png 散点图用到的主要图形对象包括geom_jitter和geom_dotplot. geom_jitter产生的点可在一定范围内随机波动,所以也叫抖动点图;而geom_dotplot产生的点可以按照作者想要的方式...这样可使数据的展现更为饱满。 欢迎大家关注我的公众号 小明的数据分析笔记本
领取专属 10元无门槛券
手把手带您无忧上云