首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【R语言】R中的因子(factor)

R中的因子用于存储不同类别的数据,可以用来对数据进行分组,例如人的性别有男和女两个类别,根据年龄可以将人分为未成年人和成年人,考试成绩可以分为优,良,中,差。...R 语言创建因子使用 factor() 函数,向量作为输入参数。...levels:指定各水平值, 不指定时由x的不同值来求得。 labels:水平的标签, 不指定时用各水平值的对应字符串。 exclude:排除的字符。 ordered:逻辑值,用于指定水平是否有序。...#构建因子,设置因子水平为male和female sex <- factor(x,levels=c("male","female")) sex 你会发现现在levels的顺序就按照你设置的来显示了。...关于这个参数后面我们还会给大家举个更实际的,跟临床数据相关的例子。 R中的因子使用还是更广泛的,例如做差异表达分析的时候我们可以根据因子将数据分成两组。

3.4K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言tidyverse包使用杂记:删除行、设置因子水平、指定列小写转大写

    首选是构造一份数据集 image.png 数据是excel存储,读取数据使用R包readxl中的函数read_excel() 读取数据 library(readxl) df<-read_excel...("20210910.xlsx") 删除行 library(tidyverse) df %>% rows_delete(tibble(var="AAA")) 设置因子水平 library...value))+ geom_col(aes(fill=var)) image.png 指定列大小写转换 df %>% mutate_at("var",toupper) 欢迎大家关注我的公众号...小明的数据分析笔记本 小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记

    2.3K10

    R语言中的因子型变量

    因子与因子水平 R语言的数据类型中,因子(Factor)型比较特殊,也让许多初学者感到难以理解。...此时calls_num是一个数值型变量,有五个值,且理论上每个值的取值范围是0到+∞。...因子水平(Level)表示因子的值域,因子的每个元素只能取因子水平中的值或缺失。上例中,因子水平就是(低频,中频,高频)。...可以看出,calls_num为数字型,经过转化后,f_calls_num变为因子型。Levels表示因子水平。这里还需要注意的一点是,R默认创建数据框时,将文本类型存储为因子型。...可以用注释部分代码实现相同的效果。 删除多余因子水平 在实际应用中,会出现实际取值范围小于因子水平。为了满足特定的运算或提升存储效率,可以使用droplevels()函数删除多余因子水平。

    4.6K20

    R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

    p=24134 测试非线性回归中的交互作用 因子实验在农业中非常普遍,它们通常用于测试实验因素之间相互作用的重要性。...在八个不同的时间(播种后天数:DAS)从 24 个地块中的每一个中取出生物量子样本,以评估生物量随时间的增长。 加载数据并将“Block”变量转换为一个因子。...01 02 03 04 模型 我们可以凭经验假设生物量和时间之间的关系是逻辑的: 其中Y是第i个基因型、第j个氮水平、第k个区块和第l个小区在X时间观察到的生物量产量,d是时间进入无穷大时的最大渐进生物量水平...这两个方程完全等同于通常用于线性混合模型的方程,在双因素因子区块设计的情况下,其中ζ是残差误差项。事实上,原则上,我们也可以考虑两步法的拟合程序,即我们。...参数b不依赖于任何变量('~1'),因此在不同的曲线上拟合出一个常数;d和e依赖于基因型和氮水平的完全因子组合(~N*GEN = ~N + GEN + N:GEN)。

    1.1K30

    【R语言】因子在临床分组中的应用

    前面给大家简单介绍了 ☞【R语言】R中的因子(factor) 今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。 我们还是以TCGA数据中的CHOL(胆管癌)这套数据为例。...stage I,stage II,stage III和stage IV四个分期 接下来我们试着把组织病理分期从四个组合并成两个组,并转换成因子 方法一、使用gsub函数 前面也给大家介绍过☞R替换函数...*","stage I/II",stage) #转换成因子 stage=factor(stage) stage 可以得到下面这个两分组的因子 方法二、直接使用factor函数 #删除组织病理学分期末尾的...*","stage III/IV",stage) #转换成因子 stage=factor(stage) stage 可以得到如下因子 方法二、直接使用factor函数 #删除组织病理学分期末尾的A,...参考资料: ☞【R语言】R中的因子(factor) ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验,复现临床paper ☞R生成临床信息统计表

    3.3K21

    Nature Neuroscience:边中心功能网络模型下大脑系统水平的重叠组织构架

    通过对eFC进行网络分析,可以知道eFC在被试内跨多个扫描时段的可重复性强,数据集间的一致性也很好。同时eFC矩阵还可以通过聚类得到一些相互重叠的社团,其中,感觉运动和注意网络的重叠水平最高。...在数据到达30分钟的时候相似性可以到0.78,nFC达到该水平只需要不到10分钟。该结果也显示出eFC在分析时可能需要更多的数据量来支撑。...大脑皮层重叠分布的社团结构 之后,再来看一下eFC的重叠分布的功能社团结构。在传统的nFC中,划分社团即功能网络的时候,多是互不重叠相互区隔的,但eFC的定义决定了它自带overlap结构这种属性。...社团的重叠以及其认知功能多样性 我们了解eFC这种重叠的社团结构后,我们再来考虑一个问题,哪些脑区参与到的这些社团多,那些参与的比较少?...、感觉运动网络的重叠最低的结论。

    53400

    混合线性模型如何检测固定因子和随机因子的显著性以及计算R2

    很多朋友写信问我, 像要知道固定因子的显著性和随机因子的显著性如何计算,他们使用的是lme4这个R包, 但是这个包使用anova时没有P值,还要手动计算, 随机因子也需要自己计算loglikehood值...软件包介绍 lme4 R语言中最流行的混合线性包 结果不太友好, 所以才有下面两个包作为辅助 安装方法 install.packages("lme4") lmerTest 主要是用于检测lme4对象的固定因子和随机因子...,它有两个函数: lmerTest::anova.lmerModLmerTest用于检测固定因子的显著性, 方差分析表采用III平方和的形式. lmerTest::ranova用于检测随机因子的显著性,...计算固定因子每个水平的P值 p_value(fm1) # 计算每个水平的显著性 term p.value std.error (Intercept) 1.535094e-127 0.7915991 Spacing3...(fm1) anova(fm1) # 固定因子显著性检验 ranova(fm1) # 随机因子显著性检验,LRT r2(fm1) # 计算R2 p_value(fm1) # 计算每个水平的显著性

    4.2K30

    ggplot2包图形参数(坐标轴、分面、配色)整理

    《R数据可视化手册》重点讲解R的绘图系统,指导读者通过绘图系统实现数据可视化,主要侧重于解决具体问题,是R数据可视化的实战秘籍。...,完全重叠设置:lineend="square"; 4.3 设置连续型坐标轴范围 xlim() # 设置连续性x轴的最小值和最大值 ylim() # 同上 ylim(0, max(PlantGrowth...当你修改x标度和y标度的范围时,任何在范围以外的数据都会被移除,换言之,超出范围的数据不仅不会被展示,而且会被完全移出考虑处理的数据范围,统计量的计算都会基于修剪后的数据。...)=="水平2"] 的水平2" levels(数据框名$分面变量)[levels(数据框名$分面变量)=="水平3"] 的水平3" 5.3.1 贴标函数label_both...scale_colour_manual(values=c("red", "blue")) scale_colour_manual(values=c("#CC6666", "#7777DD")) 参数values向量中的元素顺序自动匹配离散标度对应因子水平的顺序

    11.3K41

    R数据可视化简单小例子~NBA球员的薪资水平

    在知乎看到问题:NBA最著名的高薪低能是谁? 想到了一个方法:获取球员的薪资水平和场均得分,然后按照场均得分除以薪资得到单位薪水场均得分,然后由小到大排序,越靠前说明性价比越差。...当然单纯用得分来衡量一个球员的能力肯定是有失偏颇的,纯属娱乐,不必较真。...球员的薪资数据来自 http://www.espn.com/nba/salaries/_/year/2019,我选取的是2018-2019赛季的数据。...image.png 薪水最高的5位球员分别是 库里、威少、詹姆斯、保罗和格里芬!其中威少,保罗和詹姆斯薪水是一样的。 接下来我们看一下不同位置的薪水是不是有差异。...image.png 从上图可以看出,平均薪资水平最高的是得分后卫。

    94321

    R语言系列第一期(番外篇 ):R的6种对象—向量、矩阵、数组、因子、列表、数据框

    前文我们讲到R处理数据面对的6种对象:向量,矩阵,数组,因子,列表,数据框。 A. 那我们就得好好给大家介绍一下这位能者的6个对象都长什么样子了。...下面是数组的使用方法: array(data = NA, dim = length(data), dimnames = NULL) dim参数指定每一个维度的水平数,后面的永远是高维度的水平。...· 4.因子 · 因子是使用向量创建的R对象,类似统计学中的分类变量,它将向量与向量中元素不同值一起存储成标签,而不论是哪种类型的向量,最后都存储成字符型元素。...> fpain [1] none   severe  medium  medium  mild   severe Levels: none mild medium severe Pain表示6个病人的疼痛水平编码...· 6.数据框 · 到最后一个对象了,在其他统计软件包中,数据框被称为“数据矩阵”或“数据集”,他是一系列等长度的向量和/或因子,交叉相关,很适合数据收集的类型。

    2.3K30

    对分区表导入导出的水平,垂直切分(r2第22天)

    在工作中有时候碰到一些分区表,业务数据量很大,可能几百G,上T的规模,而且做数据的导入导出的时候,会感觉到exp/expdp的时候生成的dump文件太大了,做导入的时候也是很重的负担。...比如500G的dump,你在使用imp做导入的时候,别无选择,只能看着日志里partition里的数据一个一个被导入。impdp可能稍微好点,还能指定个并行,但是问题又来了,一个500G的dump。...在数据导入的时候,也可以分区导入,以分区的形式单独做导入,相当于把一个大的事物分成很多小的部分。可以看做是垂直切分。...如果开启100个单独的进程去导入,系统负载不一定能接受,Undo的大小肯定不能保证这么多的大事务,很可能会有Undo空间的问题。...这个时候可以考虑开启几个并行的进程来做数据导入,比如开启5个进程来做数据导入,每个进程包含20个分区,这样会对系统的负载减轻不少,同时也能提高速度。可以看做是水平切分。

    61960

    数据视化的三大绘图系统概述:base、lattice和ggplot2

    )等;还提供了更加高级的图形系统lattice和ggplot2. base基本图形系统相关内容可参照:《R语言 图形初阶:hist、plot和图形布局layout | 第6讲》,作为R语言图形绘制的入门一节...: 分类箱图、条形图 1 Lattice绘图系统 特点:一次成图;适用于关系变量间的交互:在变量z的不同水平,变量y如何随变量x变化。...1.条件变量的用法~ x | A表示因子A各个水平下数值型变量x的分布情况;y ~ x | A * B表示因子A和B各个水平组合下数值型变量x和y之间的关系。...一种方法是使用cut()函数,另外可以使用lattice包中的函数将连续型变量转化为瓦块(shingle)数据结构,这样,连续型变量可以被分割为一系列(可能)重叠的数值范围。...用来分组的变量(因子) index.cond 列表,设定面板的展示顺序 key(或auto.key) 函数,添加分组变量的图例符号 layout 两元素数值型向量,设定面板的摆放方式(行数和列数);如有需要

    4.4K30

    文献导读(二):循环炎症细胞因子与五种癌症的风险:孟德尔随机分析

    对的 beta 系数之间的相关性,重点关注 r 2的 SNP。...由于 SCALLOP 和 INTERVAL 在大多数相关细胞因子方面存在重叠(SCALLOP GWAS 包含 INTERVAL 研究),因此没有对所有三个来源进行荟萃分析。 SCALLOP?...如果大家对蛋白相关的性状感兴趣的话,可以进一步去了解这个数据库看看~ 接下来,为了尽量减少水平多效性(即工具变量通过相关细胞因子以外的性状影响结局)的可能性,我们使用了顺式工具变量,即与其他基因相比,位于编码基因内或靠近编码基因...因此,我们使用了 Karhunen 等人所描述的两种不同的顺式工具变量定义: a 顺式蛋白定量性状位点(cispQTL),涉及在相应基因位点上下游延伸 500 kb 范围内存在遗传变异的细胞因子,这些细胞因子与循环细胞因子浓度的相关性...p 的主要分析内容 b 顺式表达定量性状位点(cis-eQTL),选择相应基因位点上下游扩展 500 kb 范围内存在变异的细胞因子,这些变异与各组织的基因表达总量(p <1

    2.1K10
    领券