使用case_when()和filter()根据R中一列中的值和另一列中的级别来设置数据框子集

使用case_when()和filter()函数可以根据R中一列的值和另一列的级别来设置数据框的子集。

case_when()函数是dplyr包中的一个强大的条件语句函数，可以根据多个条件对数据进行分类和转换。它的语法如下：

case_when(condition1 ~ value1,
          condition2 ~ value2,
          ...
          TRUE ~ valueN)

其中，condition1、condition2等是逻辑条件，value1、value2等是对应条件为真时的返回值。TRUE ~ valueN是当所有条件都不满足时的默认返回值。

filter()函数也是dplyr包中的一个常用函数，用于根据指定的条件筛选数据框的行。它的语法如下：

filter(data, condition)

其中，data是要筛选的数据框，condition是筛选条件，可以是一个或多个逻辑条件。

根据这个问答内容，我们可以使用case_when()和filter()函数来设置数据框的子集。假设我们有一个数据框df，其中包含两列：column1和column2。我们想要根据column1的值和column2的级别来筛选出符合条件的子集。

library(dplyr)

subset_df <- df %>%
  mutate(subset = case_when(
    column1 > 10 & column2 == "A" ~ "Subset 1",
    column1 <= 10 & column2 == "B" ~ "Subset 2",
    TRUE ~ "Other"
  )) %>%
  filter(subset != "Other")

上述代码中，我们使用case_when()函数根据column1的值和column2的级别创建了一个新的列subset，根据条件设置了不同的子集标签。然后，我们使用filter()函数筛选出subset不为"Other"的行，即得到了符合条件的子集。

这里没有提及具体的腾讯云产品和产品介绍链接地址，因为该问题与云计算领域的专业知识和腾讯云产品无关。

相关·内容

R语言基础5（绘图基础）

，可用于向量取子集； str_starts(x,"h")##是否以h开头，生成与X长度相等的逻辑值向量，可用于向量取子集； str_ends(x,"h")##是否以h结束，生成与X长度相等的逻辑值向量，...##将x中的全部空格删除；图片 library(stringr) str_split(x," ")##按照空格分隔 str_split(x," "，simplify=T)##列表简化为矩阵玩转数据框...# arrange，数据框按照某一列排序 sort()##只排序某一列，其他列不改变；无法改变对应关系。...#x是数据框或者矩阵 #margin为行则是1，margin为列是2; #fun为函数 #apply(test,2,mean) #对test的每一列求平均值 sort(x) #对x从小到大排序 head...#对列表向量中的每个元素实施相同的操作 lappy(1:4,rnorm) 两个数据框的连接 #inner_join：取交集 #full_join：全连接 #left_join：左连接 #right_join

3487 1

Day07 生信马拉松-数据整理中的R

全文并非是对数据整理的实操整理,主要整理在数据整理/清洗中常用的R包介绍 library(tidyr) library(dplyr) library(stringr) library(tibble) 1...1.3 按位置提取字符串 #提取x中第5和第9位的字符串 str_sub(x,5,9) 1.4 字符检测 str_detect(x2,"h") # 第一个参数为向量名，第二个是检测的关键词 str_starts...distinct(test,Species,.keep_all = T) #".keep_all = T"为必须要写的参数 2.3 mutate，数据框新增一列 test <- mutate(test...) 筛选列的函数select() 筛选行的函数filter() 2.4.2 多重嵌套，代码不易读 pheatmap::pheatmap(head(as.matrix(select(iris,-5)),50...#是b的下标，可以给b取子集，也可以给与b对应的其他向量取子集。

2360 0

生信技能树- R语言-day7

(x," ")str_remove_all(x," ")玩转数据框arrange，数据框按照某一列排序sort是给向量排序的library(dplyr)arrange(test, Sepal.Length...) #默认根据这一列从小到大给整个数据框排序arrange(test, desc(Sepal.Length)) #从大到小distinct，数据框按照某一列去重复unique 给向量去掉重复duplicated...，如果没有赋值，那么这个数据框还是没有新加，没有赋值，就没有产生补充select（）filter（）如何简化连续的步骤1....else2， ifelse（，，ifelse）在ifelse里加一个ifelse补充 case_when练习题1.加载deg.Rdata,根据a、b两列的值，按照以下条件生成向量x：load("deg.Rdata...对列表/向量中的每个元素实施相同的操作lapply(1:4,rnorm)两个数据框的链接merge可以合并inner_join:交集都存在的取inner_join(test1,test2,by="name

970 0

生信学习-Day6-学习R包

在dplyr包的filter()函数中使用时，它可以用于筛选数据框中匹配给定集合中任一值的行。这行代码的作用如下： filter(test, ...): 在test数据框中筛选行。...group_by(Species)：这一步将数据按照Species列的不同值进行分组，即将数据集分成多个子集，每个子集包含相同Species值的数据。...这意味着函数将查找 test1 和 test2 中列名为 "x" 的列，并基于这两列中的匹配值来合并行。只有当两个数据框中都存在列 "x" 且某些行在这一列的值相等时，这些行才会出现在最终的结果中。...y = test2：表示要与test2数据框进行semi-join操作，即保留test1中与test2匹配的行。 by = 'x'：指定要根据哪个列进行匹配。在这里，使用列x来进行匹配。...y = test1：表示要与test1数据框进行anti-join操作，即从test2中删除与test1匹配的行。 by = 'x'：指定要根据哪个列进行匹配。在这里，使用列x来进行匹配。

2031 0

详谈如何使用ggplot2绘制火山图

欢迎关注R语言数据分析指南 ❝最近VIP群内有朋友询问火山图的绘制方法，那么本节就来详细介绍在R中如何使用「ggplot2绘制火山图」，小编添加了详细的注释希望各位观众老爷能够喜欢。...) %>% # 仅保留指定的列 mutate( gene_type = case_when( fold_change >= 2 & adj_p_val <= 0.05 ~...数据框中各个 gene_type 出现的频数筛选需要展示的基因 sig_genes % filter(symbol %in% c("Il15", "Il34", "Slc22a3...(aes(color = gene_type), alpha = 0.6, shape = 16, size = 1) + # 从 up_genes 数据框中绘制特定形状的散点图，填充颜色为红色，边框颜色为黑色...0.5 到 2 geom_vline(xintercept = c(log2(0.5),log2(2)), linetype = "dashed") + # 在图中显示 sig_genes 数据框中基因符号的标签

7373 0

ggpol包优雅的绘制蝴蝶图

欢迎关注R语言数据分析指南加载R包 library(tidyverse) # devtools::install_github('erocoar/ggpol') library(ggpol) 导入数据..., gender, status, sep = "_") %>% # 将性别和选举状态合并成一个新的列 pivot_wider(names_from = status_gender, values_from...uncount(count) %>% # 根据count列的值，将行复制相应的次数 group_by(constituency, gender) %>% mutate(y = sequence...构建数据用于在图形中添加空白区域 dummy_constituency = tibble(y = c(-max(results$y), 0, 0, max(results$y)), # y值为最大最小值及其负值...ggplot() + geom_point(data = results, # 添加点图层，使用处理后的选举数据 mapping = aes(x = constituency

3211 0

左手用R右手Python系列5——数据切片与索引

R语言：数据框索引：基于数据框本身提取 subset函数 filter+select函数 Python：数据框自身的方法 ix方法 loc方法 iloc方法 query方法 -----------...还有一种更加高级优雅得方式是使用dplyr包中的select和filter函数进行行列索引与切片。...-------------- Python： -------------- 为了保持与R语言的案例数据演示一致，我把刚才在R语言中使用的数据复制一份导入Python中。...好吧，讲了这么多，终于可以开始总结一下R语言与Python的切片索引规则重要的区别了： R语言中生成数据框使用的圆括号，Python中则根据不同数据类型分别定义（列表用方括号、元组用圆括号、字典和几何用花括号...） R语言和Python索引都用方括号，且都是使用逗号进行行规则和列规则的位置间隔 R语言与Python在索引多行多列时传入数据类型不同，R语言传入向量，Python传入列表。

3K5 0

Day5：R语言课程（数据框、矩阵、列表取子集）

学习目标演示如何从现有的数据结构中取子集，合并及创建新数据集。导出数据表和图以供在R环境以外使用。...1.数据框数据框（和矩阵）有2个维度（行和列），要想从中提取部分特定的数据，就需要指定“坐标”。和向量一样，使用方括号，但是需要两个索引。在方括号内，首先是行号，然后是列号（二者用逗号分隔）。...，我们可以使用数据集中特定列的逻辑向量来仅选择数据集中的行，其中TRUE值与逻辑向量中的位置或索引相同。...---- 注意：有更简单的方法可以使用逻辑表达式对数据帧进行子集化，包括filter()和subset()函数。这些函数将返回逻辑表达式为TRUE的数据帧的行，允许我们在一个步骤中对数据进行子集化。...为避免这种情况，可以在导出文件时设置参数col.names = NA，以确保所有列名称都与正确的列值对齐。将向量写入文件需要与数据框的函数不同。

17.7K3 0

生信代码：数据处理（ tidyverse包）

在Rstudio中加载tidyverse包，可以看到该包下有8个子包，著名的ggplot2包即是其中的一个子集，我们先着重讲一下数据处理有关的包——dplyr包。...start_with("n")) 3 filter() filter()是对数据行方向的选择和筛选，选出符合我们条件的某些行： df %>% filter( type== "english", score...=sd(score) ) ##summarize返回的是一个新的数据框，如果后续要使用到，需要保存下来 5 arrange() R base包中涉及到排序的包括 sort()，rank...()，order()，而在dplyr包中与排序相关的是arrange()包，默认是从高到低进行排序，如果变换排序顺序则可以使用-(变量)或者desc(变量)。...，例如对于我们本文中的数据框，我们如果对个人或者科目感兴趣的话，可以使用group_by（name或者type），然后利用summarize函数就可以求出分类之后的各个统计值。

2K1 0

R3数据结构和文件读取

[行，]继承行名和列名,筛选test中，Species列的值为a或c的行,test[test$Species %in% c("a","c"),]## gene CHANGE score## r2...改行名和列名rownames(df1) <- c("r1","r2","r3","r4")#只修改某一行/列的名colnames(df1)[2] <- "CHANGE"#6.两个数据框的连接，mergetest1...左连接可以使用merge(x, y, by="common_column", all.x = TRUE)实现，其中x和y是要连接的两个数据集，by指定用于连接的列名，all.x设置为TRUE表示保留左侧数据集的所有行...#注释3如何按照数据框的某一列，给整个数据框排序order，使用order()函数按照数据框的某一列对整个数据框进行排序。...#注释4如何按照数据框的某一列，给整个数据框去重复，可以使用unique()函数按照数据框的某一列对整个数据框进行去重操作。

2.8K0 0

生信学习小组Day5笔记—Chocolate Ice

提取子集的重要符号：[](1）根据元素位置x<-c(1:10) #x是一个由数字1到10组成的向量x[4] #x第4个元素x[-4]#排除法，除了第4个元素之外剩余的元素x[2:4]#第2到4个元素x[...-(2:4)]#除了第2-4个元素x[c(1,5)] #第1个和第5个元素（2）根据值x[x==10]#等于10的元素x[x<0]x[x %in% c(1,2,5)]#存在于向量c（1，2，5）中的元素数据框概念解释...：数据框：相当于excel表格，由行和列组成。...X是一个数据框colnames(X) #查看列名rownames(X) #查看行名,默认值的行名就是行号，1.2.3.4...colnames(X)[1]<-"name"#有的公司返回数据，左上角第一格为空...时的加载命令从数据框中提取元素- X[x,y]#第x行第y列- X[x,]#第x行- X[,y]#第y列- X[y] #也是第y列- X[a:b]#第a列到第b列- X[c(a,b)]#第a列和第b列-

9990 0

生信技能树R语言学习直播配套笔记

、矩阵和列表 1.区别（1）Vector向量——一维；matrix矩阵——二维，只允许一种数据类型；data.frame数据框——二维，每列只允许一种数据类型 2.练习题（1）#求c1第一列数值的中位数...#筛选c1中，最后一列值为a或c的行 c1 <- read.csv("....[ ] ：向量，数据框，矩阵取子集 [[ ]]：列表取子集四、读取，写入数据 txt 和csv read.csv()：一般读取csv格式 read.table():一般读取txt格式 ex1 <-...语法 ggplot2特殊语法：列名不带引号属性设置映射：根据数据的某一列的内容分配颜色手动设置：把图形设置为一个或N个颜色，与数据类型无关实战 #1.入门级绘图模板：作图数据，横纵坐标 ggplot...,再按照Sepal.Length列排序 dplyr包中的mutate、select、filter、rename mutate()：新增列，rename()：重命名列名 select()：筛选列；filter

1.1K2 1

大更新，pandas终于有case_when方法了！

好消息是，最近pandas2.2.0稳定版本发布了，其中一个新功能就是增加了case_when方法，可以说这个一直被大家诟病的方法终于补齐了！...功能：如果判断条件为真(True)则替换数据，反之保持原值不变。有点类似于升级版的where/mask。参数：只有一个参数caselist，是一个元组构成的列表，元组内包含判断条件和想要替换的值。...同样的，可调用对象不得更改输入series数据。对于condition和replacement的要求可以看出，case_when的用法非常的灵活。...df['score_all'] = df.sum(axis=1) 对加工的总成绩列使用case_when方法，生成1-5的排序等级。...这就是case_when非常灵活的原因，判断条件和替换值既可以是固定的值，也可以是自定义的函数，根据自己的需求随意设置。

3441 0

R语言数据框、矩阵、列表的创建、修改、导出

数据框数据框的创建数据框来源主要包括用代码新建(data.frame)，由已有数据转换或处理得到(取子集、运算、合并等操作)，读取表格文件(read.csv,read.table等)及R语言内置数据函数...，data.frame数据框允许不同列不同的数据类型，但同一列只允许一种数据类型*数据框中括号内行在列前df1 0] #先取出列名为gene的向量，在给出一个一一对应的逻辑值向量数据框修改修改数据相当于定位取出数据后赋值，赋值需对应元素或向量...3.筛选test中，Species列的值为a或c的行test[test$Species %in% c("a","c"),]#注意本题至少有三个问题，第一是值a，c为字符型，要加""，第二是向量是c()不是

7.8K0 0

R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

%in% c("setosa","versicolor")) filter() 函数第一个参数是要选择的数据框，后续的参数是条件，这些条件是需要同时满足的，另外，条件中取缺失值的观测自动放弃，这一点与直接在数据框的行下标中用逻辑下标有所不同...filter() 会自动舍弃行名，如果需要行名只能将其转换成数据框的一列。...R 数据整理（六：根据分类新增列的种种方法 1.0）其他函数 slice dplyr 包的函数 slice(.data, ...) 可以用来选择指定序号的行子集，正的序号表示保留，负的序号表示排除。...nest 与unnest 对于数据框，我们可以使用split 将数据框按某列拆分为多个数据框，并储存在列表中。...nest 和 unnest 函数，可以将子数据框保存在 tibble 中，可以将保存在 tibble 中的子数据框合并为一个大数据框。

10.9K3 0

生信课程note-3

#重点：数据框#1.数据框来源# （1）用代码新建# （2）由已有数据转换或处理得到# （3）读取表格文件（对数据框操作）# （4）R语言内置数据（可以直接使用的的数据框）heatmap(volcano...用于取子集的逻辑值向量：与x对应，不必须由x生成。（例子中即通过score为gene取子集）记住，==是等于的意思，>-是赋值的意思## 代码思维#如何取数据框的最后一列？...df1[,3]df1[,ncol(df1)]#如何取数据框除了最后一列以外的其他列？df1[,-ncol(df1)] 注：！-给数值用，！给逻辑值用。...c("r1","r2","r3","r4")#只修改某一行/列的名colnames(df1)[2] <- "CHANGE"列名和行名都是向量#6.两个数据框的连接test1 <- data.frame(...test <- read.csv("exercise.csv")# 2.求test第一列数值的中位数median(test$Petal.Length)# 3.筛选test中，Species列的值为a或c

1.3K4 0

十二、R语言的综合应用

#从大到小 2.2 distinct，数据框按照某一列去重复 distinct(test,Species,.keep_all = T) 2.3 mutate，数据框新增一列 mutate(test,new...###没有赋值，所以修改后的test还是5列图片 2.4 连续的步骤 select() 筛选列 filter() 筛选行 2.4.1.多次赋值，产生多个变量 x1 = filter(iris,Sepal.Width...# 对列表/向量中的每个元素（向量）实施相同的操作 test <- list(x = 36:33,y = 32:35,z = 30:27);test #返回值是列表，对列表中的每个元素（向量）求均值(...，取右边表中存在的子集 anti_join(test1,test2,by="name") ###反连接，左边表里在右边表里没有的会被留下来。...(dat, logFC) ###第二种 load('test1.Rdata') library(dplyr) x=arrange(dat,logFC);head(x) # 2.将test1.Rdata中存放的两个数据框连接在一起

3.1K3 0

我发现了pandas的黄金搭档！

它是对R中著名的数据清洗包janitor的移植，就如同它的名字那样，帮助我们完成数据处理的清洁工作： 2 pyjanitor中的常用功能对于使用conda的朋友，推荐使用下列命令完成pyjanitor...： 2.1 利用also()方法穿插执行任意函数熟悉pandas链式写法的朋友应该知道这种写法对于处理数据和理清步骤有多高效，pyjanitor中的also()方法允许我们在链式过程中随意插入执行任意函数...()方法实现多条件分支 pyjanitor中的case_when()方法可以帮助我们针对数据框实现类似SQL中的的多条件分支运算，注意，因为是多条件分支，所以包含最后的“其他”条件在内，需要至少定义3条分支规则...conditional_join()在作为方法使用时，其第一个参数应传入连接中的「右表」数据框，紧接着的是若干个格式为(左表字段, 右表字段, 判断条件)这样的三元组来定义单条或多条条件判断的「且」组合...move()方法用于快捷调整某行或某列数据的位置，通过source参数指定需要移动的数据行index或列的字段名，target参数用于指定移动的目标位置数据行index或列的字段名，position用于设置移动方式

5092 0

玩转数据处理120题｜R语言版本

= max(rownames(df))) 18 数据修改题目：添加一行数据['Perl',6.6] 难度：⭐⭐ R解法 row <- c(6.6,'Perl') # 需要和列的位置对应 # 或者建数据框...题目：将createTime列设置为索引难度：⭐⭐ R解法 df %>% tibble::column_to_rownames('createTime') 42 数据创建题目：生成一个和df...缺失值处理题目：检查数据中是否含有任何缺失值难度：⭐⭐⭐ R解法 # 这个包的结果呈现非常有趣 library(mice) md.pattern(df) 46 数据转换题目：将salary列类型转换为浮点数...))) %>% arrange(desc(freq)) %>% filter(row_number() <= 3) 91 数据提取题目：提取第一列中可以整除5的数字位置难度：⭐⭐⭐ R语言解法...数据读取题目：从CSV文件中读取指定数据难度：⭐⭐ 备注从数据1中的前10行中读取positionName, salary两列 R语言解法 #一步读取文件的指定列用readr包或者原生函数都没办法

8.8K1 0

【生信技能树培训笔记】R语言基础（20230112更新）

数据框要求每一列只能有一种数据类型，且数据框只是R语言内部的一个数据，不是一个文件。- 数据框单独拿出来的一列是一个向量，视为一个整体。一个向量可以出自数据框的一列，也可以用代码生成。...详见帮助文档（二）矩阵（matrix）矩阵是二维的。只允许一种数据类型。Tips: 判断数据结构根据生成他的函数来判断用函数class或is族函数来判断I.新建矩阵和取子集矩阵取子集，不支持$符号。...重点与Tips：数据框按照逻辑值取子集，TRUE对应的行/列留下，FALSE对应的行/列丢掉。用于取子集的逻辑值向量，与原集对应即可，不必一定由原集生成。...默认all=FALSE，表示只取共同列或行中相同值的内容进行合并，当指定all=TRUE时，取两个数据框中指定行列的并集进行合并，任一表中的缺失值，则用NA填充。...（即指定数据框中的数全部取，另一数据框数据取与之的交集。)

4K5 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云