data.table fcase与dplyr case_when - 腾讯云开发者社区

文章/答案/技术大牛

发布

case_when function in dplyr package

carHLH(+), Sample_Name = OR4，就在其添加的carHLH列中的对应空格填写carHLH(-), SampleTag1 %mutate(carHLH=case_when

3263 0

「Workshop」第二期：程序控制与数据操作流

:: lag lead 聚合 dplyr:: cumall cumany cummax cummean cummin cumprod cumsum 排序 dplyr:: cume_dist dense_rank...min_rank ntile percent_rank row_number 其他 dplyr:: between case_when coalesce if_else na_if pmax pmin...拓展表格 expand complete 分割和连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致，也可以使用 tidyverse 处理整数索引逻辑索引命名索引进一步的学习参考小抄、...正则表达式与字符串处理：base 与 stringr 列表处理与迭代计算：purrr 统计建模：stats 与 broom 绘图：graphics 与 ggplot2 函数编程：apply家族和purrr

2.2K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

100个GEO基因表达芯片或转录组数据处理GSE25097（018）

GEOquery包下载数据remotes::install_github('ScienceAdvances/using')using::using(tidyverse, GEOquery, magrittr, data.table...处理表型数据这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）pdata % dplyr...::mutate( Sample = geo_accession, Group = case_when(`tissue:ch1`=='tumor liver'~'Tumor'...exprs_mtx 与基因...fread(ann_file, skip = skip, nThread = 8) vars data.table

5431 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

与data.table data.table可是比dplyr以及python中的pandas还好用的数据处理方式。...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...在使用data.table时候，需要预先布置一下环境： datadata.table(data) 如果不布置环境，很多内容用不了。...data.table比较简洁一步搞定，dplyr花了两步，不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

21.9K3 2

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...mutate( ) 为数据增加新列 mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 与基础包里的transform()函数接近，但mutate可以使用你刚刚创建的column...data.table包 dplyr已经可以满足我们数据分析工作中大部分的需求，后来该包的作者又开发了一个炫酷吊炸天的包“data.table” 如果你的日常处理数据在几万到十几万行，那么用dplyr...官网上面有关于data.table包对于dplyr的提升和改进： ?...作为课代表的我来帮大家简单的总结一下：我们都知道R有个令人诟病的缺点就是跑起来耗内存，data.table相对于dplyr 更快、更节省内存了！

3K7 0

100个GEO基因表达芯片或转录组数据处理27 GSE83456

包，不用写双引号，并且不在屏幕上打印包的加载信息Canton::using(using, tidyverse,lumi,lumiHumanIDMapping, GEOquery, magrittr, data.table...处理表型数据这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）pdata % dplyr...::mutate( Sample = geo_accession, Group = case_when(`disease state:ch1`=='HC'~'HC',...后面每两列对应一个样本，是荧光信号强度和pvalue最后保存原始数据到tmp.txt文件中(参考生信技能树代码)a data.table...ProbeID = probe_id, Feature = symbol) # pipe", "bioc", "soft"lumi处理原始数据并提取标准化后的表达矩阵conflicts_prefer(data.table

3110 0

100个GEO基因表达芯片或转录组数据处理26 GSE28623

数据BiocManager::install('ScienceAdvances/Canton')Canton::using(using, tidyverse, GEOquery, magrittr, data.table...% dplyr...::mutate( Sample = geo_accession, Group = case_when(str_detect(`group:ch1`,"latently")...str_detect(`group:ch1`,"tuberculosis")~"TB",TRUE~NA), Sex = str_to_title(`gender:ch1`) ) %>% dplyr...fdata,keep.rownames="Feature"), file = stringr::str_glue("{geo_accession}_fdata.csv.gz"))pdata %% dplyr

2770 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...(ID)] 三种数据筛选的方式，dplyr包、base基础包、data.table包。其中，dplyr是select语句，data.table中要注意.()的表达方式。...2、按条件行筛选从前用subset的方式进行筛选比较多， new=14,select=a:f) （1）单变量现在data.table与dplyr from_dplyr =...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...dplyr和data.table，你选哪个？

11.2K4 3

100个GEO基因表达芯片或转录组数据处理之GSE126848（003）

是转录组高通量测序数据，因此可以使用GEOquery包下载数据临床信息，并且手动下载表达矩阵并整理使用GEOquery包下载数据using(tidyverse, GEOquery, magrittr, data.table...::mutate( Sample = geo_accession, Group = case_when(`diagnosis:ch1` == "HC" ~ "Control"...y):ch1`, Sex = str_to_title(`gender:ch1`), Stage = `fibrosis (stage):ch1` ) %>% dplyr...is.na(Group)) %>% dplyr::select(Sample, Group, Age, Sex)fwrite(pdata, file = str_glue("{geo_accession..."GSE126848_pdata.csv",index_col=0)pdata.drop(columns=["Sample2"]).to_csv("GSE126848_pdata.csv")fdata与pdata

5030 0

R语言中这个筛选差异基因的方式可读性很好，值得推荐

::case-when 标记差异基因比之前简洁了一些，可读性强 library(dplyr) res_output %>% mutate(level = case_when( (padj<=padj_thresh...) res_output %>% mutate(rank=1:n(), keep_gene = case_when( rank %% 2 == 1 ~...Gene, TRUE ~ "" )) dplyr::if_else速度最快！...dplyr::if_else速度最快！...::if_else；如果多个条件，用dplyr::case_when (更可读)

1K4 1

数据清洗与管理之dplyr、tidyr

本期回顾 R语言 | 第一部分：数据预处理 R语言|第2讲：生成数据 R语言常用的数据输入与输出方法 | 第三讲本期目录 0 二维数组行列引用 1 创建新变量 2 变量重新编码 3 变量重新命名 4...缺失值 5 dplyr包的下述五个函数用法 5.1 筛选: filter 5.2 排列: arrange 5.3 选择: select 5.4 变形: mutate 5.5 汇总: summarise...7 [2,] 3 8 [3,] 4 9 [4,] 5 10 attr(,"na.action") [1] 1 attr(,"class") [1] "omit" 5 dplyr...包的下述五个函数用法【高级数据管理包】 # install.packages("dplyr") library(dplyr) #使用datasets包中的mtcars数据集做演示，首先将过长的数据整理成友好的...-") widesep # person grade score #1 Alex 2 78 #2 Bob 3 89 #3 Cathy 4 88 dplyr

2.3K4 0

专题3 条件和循环

3## [1] 4批量画图par(mfrow = c(2,2))for(i in 1:4){ plot(iris[,i],col = iris[,5])}批量装包pks = c("tidyr","dplyr...require(g,character.only = T)) install.packages(g,ask = F,update = F)}dplyr包中case_when简化ifelselibrary...(dplyr)# case_when() # 可用于将数据转换为分类因子df NA NAdf %>% mutate(quality = case_when

4161 0

自学攻略 | R语言数据筛选和修改

如果尚未安装 dplyr 包，请先安装 tidyverse（dplyr 是其一部分）： install.packages("tidyverse") library(dplyr) 数据筛选 (filter...1、新增列：计算年龄组根据年龄创建一个新的 AgeGroup 列： patient_data_with_age_group <- mutate(patient_data, AgeGroup = case_when... 的 mutate() 和 case_when() 组合，它通常更灵活： patient_data_status_replaced_dplyr % mutate(...DiseaseStatus = case_when( DiseaseStatus == "Healthy" ~ "Control", TRUE ~ DiseaseStatus # 否则保持原样...下一篇我们将学习R语言函数与参数的介绍。

9051 0

经验总结 | 最有效的R学习路径（一）

——Hadley Wickham ” 小伙伴们肯定有这样的经历：在写论文的过程中，绝大部分的时间都用来清理数据，例如剔除异常值、表与表之间的匹配与连接、数据分类汇总等，而最后用来跑回归的时间可能就只有十几秒左右...大猫在这里建议大家在以下两个包中选择： data.table vs. dplyr 简单而言，data.table和dplyr的功能类似，但是根据世界上最大的程序（同）员（性）交（交）流（友）网站stackoverflow...上的讨论，data.table在语法灵活性和performance上面更深一筹，dplyr则在易学性和SQL语句转换方面有独到之处。...注1：图中，Arun是data.table的coauthor，Hadley是dplyr的author。...大猫不建议去cousera.org上看R的相关教程，因为他们1）太基础；2）没有侧重介绍data.table或者dplyr的课程。

1.3K2 0

「R」连接两个数据集的各种 join

本文来自 stack overflow 上的一个帖子 base与data.table适用 SQL版流行的dplyr 最后看看各种操作的性能吧 data.table 就是牛批！...（可惜没有tidyverse易用）测试代码： library(microbenchmark) library(sqldf) library(dplyr) library(data.table) sapply...(c("sqldf","dplyr","data.table"), packageVersion, simplify=FALSE) n = 5e7 set.seed(108) df1 = data.frame..., sqldf = sqldf("SELECT * FROM df1 INNER JOIN df2 ON df1.x = df2.x"), dplyr...sqldf = sqldf("SELECT * FROM df1 LEFT OUTER JOIN df2 ON df1.x = df2.x"), dplyr

1.6K2 0

GSE163558单细胞数据处理流程分享

./11.29-scRNAseq-GSE163558")library(data.table)library(stringr)library(data.table)library(Seurat)library...(dplyr)library(Seurat)#library(infercnv)library(dplyr)library(ggplot2)library(ggplotify)library(NMF)library...)scRNAlist$sample = gsub("NT1", "Adjacent_Nontumor", scRNAlist$sample)# 添加患者来源信息scRNAlist$patient = case_when...Patient5", scRNAlist$orig.ident == "P1" ~ "Patient6", TRUE ~ "Patient4")# 添加组织类型信息scRNAlist$tissue case_when

1.1K2 1

ggplot2绘制突变全景图

fig2a fig2c 读取数据附件下载地址：https://ehoonline.biomedcentral.com/articles/10.1186/s40164-021-00200-x s2 data.table...# 把这几个基因挑出来 mutationper dplyr::filter(gene_symbol %in% c("TET2","RHOA","PCLO",..."CHD3")) |> group_by(PatientID,gene_symbol) |> summarise(n=n()) |> mutate(n = case_when...s2 data.table::fread("....Variant_Type = ifelse(Variant_Type == "SNV","SNP","DEL"), Variant_Classification = case_when

1.8K4 0

R语言专题3-条件和循环

取三个随机数康康x = rnorm(3);x## [1] 0.1171687 -0.1286477 0.3504566ifelse(x>0,'+','-')## [1] "+" "-" "+"# 与字符检测函数...()# 用之前先加载R包dplyrlibrary(dplyr)# 先来个简单的,case_when是按顺序进行判断的i = 0case_when(i>0 ~ "+", # 如果i大于0，就输出"+"...所以不让他以科学计数法显示x = c(0.01,0.001,0.07,0.03,0.00001); x## [1] 0.01000 0.00100 0.07000 0.03000 0.00001# 由于case_when...按顺序进行判断，条件严格的往前写哈# 这个用来看p值比较多case_when(x dplyr

6573 0

R数据科学整洁之道：使用dtplyr处理大文件

其实，如果习惯了 tidyverse 系列工具，用 dtplyr 也是不错的，简单理解：dtplyr = dplyr + data.table dtplyr 将 dplyr 作为前端，data.table...作为后端，这样做的好处是显而易见的：前端书写 dplyr 语法，简单、优雅后端自动转换为 data.table 代码，提升速度安装 install.packages("dtplyr") 使用...要使用 dtplyr，需要加载下列三个包： library(data.table) library(dtplyr) library(dplyr, warn.conflicts = FALSE) 然后使用...，dtplyr 通常没有 data.table 快，如果追求极致速度，那么应该直接使用 data.table。...总的来说，dplyr 易用，但速度慢，data.table 速度快，但易用性差一些，而 dtplyr 在两者之间搭起一个桥梁，最终的趋势或许是两者合二为一。

7761 0

用R根据logFC和p值批量标注基因上下调的N种方法

logFC >=1#上调 test_down <- df$logFC <=-1#下调第一种方法：逻辑判断转为数字1和0,然后赋值添加列，下调的乘以10的原因属个人喜好，但我觉得很有用 library(dplyr..."none","10"="none") df$method3 <- lookup[as.character(df$regulation)] head(df) 第四种方法：逻辑判断转为数字1和0，然后用dplyr...包的case_when df$method4 case_when(df$regulation == 2 ~ "up", df$regulation...ifelse(test_p & test_up, "up", ifelse(test_p & test_down, "down","none")) 第六种方法：dplyr...的case_when df$method6 case_when(test_p & test_up ~ "up", test_p & test_down ~ "down",

9K1 0

点击加载更多

case_when function in dplyr package

「Workshop」第二期：程序控制与数据操作流

100个GEO基因表达芯片或转录组数据处理GSE25097（018）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

懒癌必备-dplyr和data.table让你的数据分析事半功倍

100个GEO基因表达芯片或转录组数据处理27 GSE83456

100个GEO基因表达芯片或转录组数据处理26 GSE28623

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

100个GEO基因表达芯片或转录组数据处理之GSE126848（003）

R语言中这个筛选差异基因的方式可读性很好，值得推荐

数据清洗与管理之dplyr、tidyr

专题3 条件和循环

自学攻略 | R语言数据筛选和修改

经验总结 | 最有效的R学习路径（一）

「R」连接两个数据集的各种 join

GSE163558单细胞数据处理流程分享

ggplot2绘制突变全景图

R语言专题3-条件和循环

R数据科学整洁之道：使用dtplyr处理大文件

用R根据logFC和p值批量标注基因上下调的N种方法

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐