R data.table:按表达式分组时保留列 - 腾讯云开发者社区

文章/答案/技术大牛

发布

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...by] i 决定显示的行,可以是整型，可以是字符，可以是表达式，j 是对数据框进行求值，决定显示的列，by对数据进行指定分组，除了by ，也可以添加其它的一系列参数： keyby，with,nomatch..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的...函数画图，对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组，直接在DT上再添加一列m,m的内容是mean(v)，直接修改并且不输出到屏幕上 DT[, m:=mean...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列，按x分组，输出max(y),对y到v之间的列每列求最小值输出。

7.6K2 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...##按照已有的类别数据，分类 g分组 ##例2：对矩阵分组（按列） m分组适用，在进行双字段联合分组时其结果为二维矩阵，用户还需要进行复杂的处理才行，比如 tapply(orders$AMOUNT, orders[,c("SELLERID","CLIENT...##对于数据框 x是对象，subset是保留元素或者行列的逻辑表达式，对于缺失值用NA代替。 Select 是选取的范围，应小于x。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?

21.9K3 2

您找到你想要的搜索结果了吗？

是的

没有找到

data.table包使用应该注意的一些细节

还有就算后续改变了文件的分隔符，文件也可以读入，建议不加分隔符 fread可以自动检测注释，并且跳过注释行默认skip=0，会跳过不规则的行，因此有注释行时，可以走默认的skip参数转换成矩阵时可以保留某一列为...rowname as.matrix作用于data.table时会调用as.matrix.data.table，有一个rownames参数可以指定保留为行名的列矩阵转换成data.table时可以保留列名...，但在R中用for循环比批量列运算慢的多，因此首选:=或者apply等在处理浮点数时会有一些准确性的问题比如用seq函数numeric类型的数值时，会存在不准确的问题，比如seq(0,1,by=...中fintersect, fsetdiff, funion，fsetequal函数能对不同数据框的行求交集，差集，并集等可以直接对列按分隔符进行分割应用tstrsplit函数可以将一列按照分隔符分成多列...，函数返回的是一个列表，举例：DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][]，将x列按照/分隔，分割成c1，c2两列支持类似于SQLs的分组运算

1.8K1 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...构建子集时，能够自动根据语义计算表达式，因此可以直接使用列名，像with()和subset()那样。...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...，这在进行大数据计算时开销很大，data.table提供了一系列支持语义的set函数，它们可以原地修改data.table，因此避免不必要的复制。...然后在每个子集data.table的语义中计算j表达式。

7.3K2 0

数据流编程教程：R语言与DataFrame

此外，separate和union方法提供了数据分组拆分、合并的功能，应用在nominal数据的转化上。...dplyr/rlist/purrr 1. dplyr dplyr包是现在数据流编程的核心,同时支持主流的管道操作 %>%，主要的数据处理方法包括：（1）高级查询操作： select(): 按列变量选择...filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合gruop_by...ggvis最明显的区别就是在作图时直接支持%>%的管道操作，比如： ggplot2与ggvis的关系类似于plyr与dplyr的关系,都是一种演化过程。六....data.table完美兼容data.frame，这意味着之前对data.frame的操作我们可以完全保留，并且支持更多方便的数据操作方法。

4.6K12 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列...参考文献：些许案例，代码参考自以下博客，感谢你们的辛勤： 1、R语言data.table简介 2、超高性能数据处理包data.table 3、R语言data.table速查手册 4、R高效数据处理包

11.2K4 3

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

p) { s = intersect(rownames(pd),colnames(exp)) exp = exp[,s] pd = pd[s,] } 有多个分组，怎么提取两个分组 #现编一个三分组...如果三种办法都不适用，可以继续往后写else if if(F){ # 第一种方法，有现成的可以用来分组的列 Group = pd$ #列名 }else if(F){ # 第二种方法，眼睛数，...) #把R包里的注释表格变成数据框 } 方法2 读取GPL网页的表格文件，按列取子集 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...首先确认是不是基因表达芯片，可能是RNA芯片然后看看别的列，基因名称可能包含在里面。...，只保留行内差别，不保留行间差别，会把数据范围缩放到大概-5~5之间 breaks = seq(-3,3,length.out = 100) #设置色带分布范围为-3~3之间，超出此范围的数字显示极限颜色

9512 2

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...作为课代表的我来帮大家简单的总结一下：我们都知道R有个令人诟病的缺点就是跑起来耗内存，data.table相对于dplyr 更快、更节省内存了！..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢...(v1,v2)] 回顾一下我们在上一节最后保留的一段代码： group_by() grouped分组 newdatadata.table以后就再也不想用R里面基础包自带的函数了，今天就黑到这里，匿了~） ——Copyright Reserved by Erin

3K7 0

「R」数据操作（八）：dplyr 的 do, do, do

与data.table类似，dplyr也提供了do()函数来对每组数据进行任意操作。例如将diamonds按cut分组，每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...Good #> 3 Very Good #> 4 Premium #> 5 Ideal 注意结果创建了一个新列，...该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...data = .) #> #> Coefficients: #> (Intercept) carat #> 6.78 1.25 在需要完成高度定制的操作时，

2.2K3 1

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

4.3K8 0

「Workshop」第五期：使用data.table操作数据

j 进行操作按条件选取列 > dt[,2] money 1: 1 2: 2 3: 3 4: 4 5: 5 6: 6 > dt[, -2]...5 3 > uniqueN(dt, by = c("name")) [1] 3 key(dt, colname)设置索引 setkey(dt, NULL) 去除索引 ⚠️：当提取的索引是数字时格式不同...按相同的列内容进行data.table组合 ?...输出R环境中名为dt的数据框为.csv文件 foverlaps() foverlaps() 格式 foverlaps(x, y, by.x = if (!...grape l 6 73: peach h 3 44: peach l 8 9 参考资料 [1] 查看代码: showcase.R

3.6K5 0

用data.table语句批量处理变量

写在前面本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！...问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...我们现在要对列进行操作（转换类型），因此本期是关于“j”的内容。下面正式开始，笔者在帮他人处理数据时遇到了需要同时为一系列变量进行相同处理，先来看数据结构： ?...如何把处理好的这些变量与变量名进行对应，这里就用到了colnames()这个函数，提取出我们这个data.table第3到第34个变量的名字，这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。...下期预告下期的大猫R语言课堂还是由村长来进行撰写和推送，届时将会给大家带来一个比较有趣的data.table发现，敬请期待！！ ?

1.5K3 0

R语言高级数据结构data.table

今天给大家介绍一个升级版的data.frame，其不仅可以存储不同数据类型还可以进行多列的并行运算。包的安装我们就不再赘述了（install.packages(“data.table”)）。...as.data.table 将R对象转化为data.table格式的数据，其对象可以为列表，向量，data.frame。...setDT(x) 其直接将R对象转化为data.table数据类型，从而不改变数据地址。...分组计算的运算，可以单列分组也可以多列分组： DT[,.(sum=sum(y)),by=x] DT[,.(sum=sum(v)),by=.(x,y)] ? 6....各分组的计数函数.N，例： DT[,.N,by=x] 7. 其中数据各列的增加，删除，修改，用到的函数是:=。 DT[,y1:=y] DT[,y:=NULL] DT[,y:=(y+1)] ?

2.4K3 0

R语言基因组数据分析可能会用到的data.table函数整理

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...跳过读取的行数，为1则从第二行开始读，设置了这个选项，就会自动忽略autostart选项，也可以是一个字符,skip="string",那么会从包含该字符的行开始读； select 需要保留的列名或者列号...； sep2 对于是list的一列，写出去时list成员间以sep2分隔，它们是处于一列之内，然后内部再用字符分开； eol 行分隔符，默认Windows是"\r\n",其它的是"\n"...patterns patterns是melt函数内部使用的函数，匹配正则表达式。...manual: https://cran.r-project.org/web/packages/data.table/data.table.pdf

4.4K1 0

文章复现—bulkRNA转录组结合机器学习等进行相关疾病研究01—多数据集去除批次效应后联合分析以及火山图标准绘制

列名为median，同时对dat这个矩阵按行操作，取每一行的中位数，将结果给到median这一列的每一行 ids$median=apply(dat,1,median) #对ids$symbol按照ids...(dat)=ids$symbol#把ids的symbol这一列中的每一行给dat作为dat的行名 dat[1:4,1:4] #保留每个基因ID第一次出现的信息}save(gse_number,dat...列名为median，同时对dat这个矩阵按行操作，取每一行的中位数，将结果给到median这一列的每一行 ids$median=apply(dat,1,median) #对ids$symbol按照ids...(dat)=ids$symbol#把ids的symbol这一列中的每一行给dat作为dat的行名 dat[1:4,1:4] #保留每个基因ID第一次出现的信息} save(gse_number,dat...列名为median，同时对dat这个矩阵按行操作，取每一行的中位数，将结果给到median这一列的每一行 ids$median=apply(dat,1,median) #对ids$symbol按照ids

6912 1

R练习50题 - 第一期

在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...问题分析这一题需要引入分组的概念，并且按照“先分组，后统计”两步走。首先按照题意，我们需要为每个交易日date建立一个“组”。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....整个代码的执行顺序是：先选择行（逗号空白行），再分组（keyby语句），最后进行组间统计（num语句）。我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。...如果你愿意，data.table允许你把所有的代码都写在同一行，就像这样：下期预告在下一期，我们会继续带来剩余题目的解答~ 大猫的R语言课堂我是大猫，一个高中读文科但却在代码、数学的路上狂奔不止的

2.9K4 1

Matt Dowle 演讲节选（二）

上期回顾上次讲到 Matt 在转移到 R 阵营之后，开始思考下面那个无法在 S-PLUS 上面实现的命令，能否在 R 中实现呢？...进行分组。...Matt 接着想，如果我还想要将数据集按照特定变量分组呢？何不把分组这个命令也一块给整合进去？...（大猫：在最新版本的 R 中，这个问题已经明显缓解，但是这时已经过去了5年多）而在data.table中，一切都是那么自然： > DF[, colToDelete := NULL] 哪怕你的数据集有...假设你有100列，难道你要每列的class都指定一遍？这时你就需要fread("test.csv")！不需要输入任何其他的参数，你猜要运行多久？ 3秒！

1.4K4 0

「Workshop」第二期：程序控制与数据操作流

num_range starts_with ends_with one_of matches 行筛选 slice, filter, sample_n, sample_frac, top_n, distinct 列筛选...逻辑值 mean, sum 位置 dplyr:: first last nth 排序 quantile min max 分布 IQR mad sd var count summarize 简单汇总分组汇总...字符处理 substr stringr包与正则表达式略微复杂，可以单独讲一次转换 tidyr Tidy 数据格式 ? ?...拓展表格 expand complete 分割和连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致，也可以使用 tidyverse 处理整数索引逻辑索引命名索引进一步的学习参考小抄、

2.2K3 0

R语言机器学习之构建并操作Task（2）（mlr3包系列）

，前三列），该数据集列名就是车的型号 #我们把mtcars的前3列转化为“data.table”，并保留行名 data = as.data.table(mtcars[, 1:3],keep.rownames...Task（id，backend和target的定义请参考上期内容） task = TaskRegr$new(id = "cars", backend= data, target = "mpg") # 当保留原数据集的行名时...# 当把“rn“设置为”name“角色后，它就不存在于feature中 task$feature_names # [1] "cyl" "disp" task$select(c("disp")) #只保留...disp这个feature列 task$filter(1:3) # 只保留1到3行的数据 task$head() # 查看数据 task$cbind(data.table::data.table(foo...=letters[1:3])) # 按列合并数据，也即添加一列新数据。

7061 0

「R」data.table 包功能特性学习

# 返回第二列为一个向量 DT[, V2] ## [1] "A" "B" "C" "A" "B" "C" "A" "B" "C" "A" "B" "C" # 返回第二列与第三列为一个data.table...DT[, sum(V1)] ## [1] 18 # 返回V1列的和，V3列的标准差为一个data.table DT[, ....,V2分组，返回V3的均值 DT[, mean(V3), by=....V2 V3 V4 ## 1: A -1.49 22 ## 2: B -1.49 26 ## 3: C -1.49 30 链 # 按V1分组求V4列的和 DT2 <- DT[, ....(V4.sum=sum(V4)), by=V1] # 选择和>40的行 DT2[V4.sum>40] ## V1 V4.sum ## 1: 2 42 # 按V1分组，V1排序计算V4和

2.1K1 0

点击加载更多

R语言数据分析利器data.table包 —— 数据框结构处理精讲

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

data.table包使用应该注意的一些细节

「R」数据操作（三）：高效的data.table

数据流编程教程：R语言与DataFrame

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

懒癌必备-dplyr和data.table让你的数据分析事半功倍

「R」数据操作（八）：dplyr 的 do, do, do

R语言学习笔记之——数据处理神器data.table

「Workshop」第五期：使用data.table操作数据

用data.table语句批量处理变量

R语言高级数据结构data.table

R语言基因组数据分析可能会用到的data.table函数整理

文章复现—bulkRNA转录组结合机器学习等进行相关疾病研究01—多数据集去除批次效应后联合分析以及火山图标准绘制

R练习50题 - 第一期

Matt Dowle 演讲节选（二）

「Workshop」第二期：程序控制与数据操作流

R语言机器学习之构建并操作Task（2）（mlr3包系列）

「R」data.table 包功能特性学习

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐