开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R data.table:按表达式分组时保留列

R data.table是一个在R语言中用于高效处理大型数据集的包。它提供了一种快速、灵活且内存高效的数据操作方式，特别适用于数据聚合和分组操作。

在使用data.table进行按表达式分组时，可以通过使用by参数来指定分组的表达式。在分组过程中，可以选择保留特定的列，以满足不同的需求。

以下是按表达式分组时保留列的步骤：

导入data.table包：首先需要导入data.table包，可以使用library(data.table)命令进行导入。
创建data.table对象：使用data.table()函数创建一个data.table对象，可以将一个已有的数据框转换为data.table对象。
指定分组表达式：使用by参数指定分组的表达式，例如by = .(列名)。
选择保留的列：使用j参数选择要保留的列。可以使用列名、列索引或逻辑表达式来选择列。例如，j = .(列名1, 列名2)。
执行分组操作：使用[ ]操作符进行分组操作。将步骤2、3和4中的内容放在[ ]中，例如data.table[by = .(列名), j = .(列名1, 列名2)]。

以下是一个示例代码：

library(data.table)

# 创建data.table对象
dt <- data.table(列名1 = c(1, 2, 3, 4, 5),
                 列名2 = c("A", "B", "C", "D", "E"),
                 列名3 = c(10, 20, 30, 40, 50))

# 按表达式分组并保留列
result <- dt[, .(列名1, 列名2), by = .(列名3)]

# 输出结果
print(result)

在上述示例中，我们创建了一个包含三列的data.table对象。然后，我们按列名3进行分组，并保留列名1和列名2。最后，我们打印出结果。

对于R data.table的更多详细信息和用法，请参考腾讯云的产品介绍链接：R data.table产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...by] i 决定显示的行,可以是整型，可以是字符，可以是表达式，j 是对数据框进行求值，决定显示的列，by对数据进行指定分组，除了by ，也可以添加其它的一系列参数： keyby，with,nomatch..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的...函数画图，对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组，直接在DT上再添加一列m,m的内容是mean(v)，直接修改并且不输出到屏幕上 DT[, m:=mean...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列，按x分组，输出max(y),对y到v之间的列每列求最小值输出。

5.8K2 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...##按照已有的类别数据，分类 g<-split(Cars93,Cars93$Origin) #按照cars93数据集，按照origin进行分组 ##例2：对矩阵分组（按列） m<-cbind...tapply 只对单字段分组适用，在进行双字段联合分组时其结果为二维矩阵，用户还需要进行复杂的处理才行，比如 tapply(orders$AMOUNT, orders[,c("SELLERID","CLIENT...##对于数据框 x是对象，subset是保留元素或者行列的逻辑表达式，对于缺失值用NA代替。 Select 是选取的范围，应小于x。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?

20.7K3 2

data.table包使用应该注意的一些细节

还有就算后续改变了文件的分隔符，文件也可以读入，建议不加分隔符 fread可以自动检测注释，并且跳过注释行默认skip=0，会跳过不规则的行，因此有注释行时，可以走默认的skip参数转换成矩阵时可以保留某一列为...rowname as.matrix作用于data.table时会调用as.matrix.data.table，有一个rownames参数可以指定保留为行名的列矩阵转换成data.table时可以保留列名...，但在R中用for循环比批量列运算慢的多，因此首选:=或者apply等在处理浮点数时会有一些准确性的问题比如用seq函数numeric类型的数值时，会存在不准确的问题，比如seq(0,1,by=...中fintersect, fsetdiff, funion，fsetequal函数能对不同数据框的行求交集，差集，并集等可以直接对列按分隔符进行分割应用tstrsplit函数可以将一列按照分隔符分成多列...，函数返回的是一个列表，举例：DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][]，将x列按照/分隔，分割成c1，c2两列支持类似于SQLs的分组运算

1.5K1 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...构建子集时，能够自动根据语义计算表达式，因此可以直接使用列名，像with()和subset()那样。...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...，这在进行大数据计算时开销很大，data.table提供了一系列支持语义的set函数，它们可以原地修改data.table，因此避免不必要的复制。...然后在每个子集data.table的语义中计算j表达式。

6.2K2 0

数据流编程教程：R语言与DataFrame

此外，separate和union方法提供了数据分组拆分、合并的功能，应用在nominal数据的转化上。...dplyr/rlist/purrr 1. dplyr dplyr包是现在数据流编程的核心,同时支持主流的管道操作 %>%，主要的数据处理方法包括：（1）高级查询操作： select(): 按列变量选择...filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合gruop_by...ggvis最明显的区别就是在作图时直接支持%>%的管道操作，比如： ggplot2与ggvis的关系类似于plyr与dplyr的关系,都是一种演化过程。六....data.table完美兼容data.frame，这意味着之前对data.frame的操作我们可以完全保留，并且支持更多方便的数据操作方法。

3.8K12 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列...参考文献：些许案例，代码参考自以下博客，感谢你们的辛勤： 1、R语言data.table简介 2、超高性能数据处理包data.table 3、R语言data.table速查手册 4、R高效数据处理包

8.3K4 3

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

p) { s = intersect(rownames(pd),colnames(exp)) exp = exp[,s] pd = pd[s,] } 有多个分组，怎么提取两个分组 #现编一个三分组...如果三种办法都不适用，可以继续往后写else if if(F){ # 第一种方法，有现成的可以用来分组的列 Group = pd$ #列名 }else if(F){ # 第二种方法，眼睛数，...) #把R包里的注释表格变成数据框 } 方法2 读取GPL网页的表格文件，按列取子集 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...首先确认是不是基因表达芯片，可能是RNA芯片然后看看别的列，基因名称可能包含在里面。...，只保留行内差别，不保留行间差别，会把数据范围缩放到大概-5~5之间 breaks = seq(-3,3,length.out = 100) #设置色带分布范围为-3~3之间，超出此范围的数字显示极限颜色

2512 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...作为课代表的我来帮大家简单的总结一下：我们都知道R有个令人诟病的缺点就是跑起来耗内存，data.table相对于dplyr 更快、更节省内存了！..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢...(v1,v2)] 回顾一下我们在上一节最后保留的一段代码： group_by() grouped<-group_by(df,v1,V2) #data被v1,v2进行分组 newdata<-summarise...（反正我用了data.table以后就再也不想用R里面基础包自带的函数了，今天就黑到这里，匿了~） ——Copyright Reserved by Erin

2.4K7 0

「R」数据操作（八）：dplyr 的 do, do, do

与data.table类似，dplyr也提供了do()函数来对每组数据进行任意操作。例如将diamonds按cut分组，每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...Good #> 3 Very Good #> 4 Premium #> 5 Ideal 注意结果创建了一个新列，...该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...data = .) #> #> Coefficients: #> (Intercept) carat #> 6.78 1.25 在需要完成高度定制的操作时，

1.6K3 1

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

「Workshop」第五期：使用data.table操作数据

j 进行操作按条件选取列 > dt[,2] money 1: 1 2: 2 3: 3 4: 4 5: 5 6: 6 > dt[, -2]...5 3 > uniqueN(dt, by = c("name")) [1] 3 key(dt, colname)设置索引 setkey(dt, NULL) 去除索引 ⚠️：当提取的索引是数字时格式不同...按相同的列内容进行data.table组合 ?...输出R环境中名为dt的数据框为.csv文件 foverlaps() foverlaps() 格式 foverlaps(x, y, by.x = if (!...grape l 6 73: peach h 3 44: peach l 8 9 参考资料 [1] 查看代码: showcase.R

3.3K5 0

用data.table语句批量处理变量

写在前面本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！...问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...我们现在要对列进行操作（转换类型），因此本期是关于“j”的内容。下面正式开始，笔者在帮他人处理数据时遇到了需要同时为一系列变量进行相同处理，先来看数据结构： ?...如何把处理好的这些变量与变量名进行对应，这里就用到了colnames()这个函数，提取出我们这个data.table第3到第34个变量的名字，这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。...下期预告下期的大猫R语言课堂还是由村长来进行撰写和推送，届时将会给大家带来一个比较有趣的data.table发现，敬请期待！！ ?

1.2K3 0

R语言高级数据结构data.table

今天给大家介绍一个升级版的data.frame，其不仅可以存储不同数据类型还可以进行多列的并行运算。包的安装我们就不再赘述了（install.packages(“data.table”)）。...as.data.table 将R对象转化为data.table格式的数据，其对象可以为列表，向量，data.frame。...setDT(x) 其直接将R对象转化为data.table数据类型，从而不改变数据地址。...分组计算的运算，可以单列分组也可以多列分组： DT[,.(sum=sum(y)),by=x] DT[,.(sum=sum(v)),by=.(x,y)] ? 6....各分组的计数函数.N，例： DT[,.N,by=x] 7. 其中数据各列的增加，删除，修改，用到的函数是:=。 DT[,y1:=y] DT[,y:=NULL] DT[,y:=(y+1)] ?

2.1K3 0

R语言基因组数据分析可能会用到的data.table函数整理

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...跳过读取的行数，为1则从第二行开始读，设置了这个选项，就会自动忽略autostart选项，也可以是一个字符,skip="string",那么会从包含该字符的行开始读； select 需要保留的列名或者列号...； sep2 对于是list的一列，写出去时list成员间以sep2分隔，它们是处于一列之内，然后内部再用字符分开； eol 行分隔符，默认Windows是"\r\n",其它的是"\n"...patterns patterns是melt函数内部使用的函数，匹配正则表达式。...manual: https://cran.r-project.org/web/packages/data.table/data.table.pdf

3.3K1 0

R练习50题 - 第一期

在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。练习2：每天上涨和下跌的股票各有多少?...问题分析这一题需要引入分组的概念，并且按照“先分组，后统计”两步走。首先按照题意，我们需要为每个交易日date建立一个“组”。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....整个代码的执行顺序是：先选择行（逗号空白行），再分组（keyby语句），最后进行组间统计（num语句）。我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。...如果你愿意，data.table允许你把所有的代码都写在同一行，就像这样：下期预告在下一期，我们会继续带来剩余题目的解答~ 大猫的R语言课堂我是大猫，一个高中读文科但却在代码、数学的路上狂奔不止的

2.5K4 0

「Workshop」第二期：程序控制与数据操作流

num_range starts_with ends_with one_of matches 行筛选 slice, filter, sample_n, sample_frac, top_n, distinct 列筛选...逻辑值 mean, sum 位置 dplyr:: first last nth 排序 quantile min max 分布 IQR mad sd var count summarize 简单汇总分组汇总...字符处理 substr stringr包与正则表达式略微复杂，可以单独讲一次转换 tidyr Tidy 数据格式 ? ?...拓展表格 expand complete 分割和连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致，也可以使用 tidyverse 处理整数索引逻辑索引命名索引进一步的学习参考小抄、

1.6K3 0

Matt Dowle 演讲节选（二）

上期回顾上次讲到 Matt 在转移到 R 阵营之后，开始思考下面那个无法在 S-PLUS 上面实现的命令，能否在 R 中实现呢？...进行分组。...Matt 接着想，如果我还想要将数据集按照特定变量分组呢？何不把分组这个命令也一块给整合进去？...（大猫：在最新版本的 R 中，这个问题已经明显缓解，但是这时已经过去了5年多）而在data.table中，一切都是那么自然： > DF[, colToDelete := NULL] 哪怕你的数据集有...假设你有100列，难道你要每列的class都指定一遍？这时你就需要fread("test.csv")！不需要输入任何其他的参数，你猜要运行多久？ 3秒！

1.1K4 0

R语言机器学习之构建并操作Task（2）（mlr3包系列）

，前三列），该数据集列名就是车的型号 #我们把mtcars的前3列转化为“data.table”，并保留行名 data = as.data.table(mtcars[, 1:3],keep.rownames...Task（id，backend和target的定义请参考上期内容） task = TaskRegr$new(id = "cars", backend= data, target = "mpg") # 当保留原数据集的行名时...# 当把“rn“设置为”name“角色后，它就不存在于feature中 task$feature_names # [1] "cyl" "disp" task$select(c("disp")) #只保留...disp这个feature列 task$filter(1:3) # 只保留1到3行的数据 task$head() # 查看数据 task$cbind(data.table::data.table(foo...=letters[1:3])) # 按列合并数据，也即添加一列新数据。

5251 0

「R」data.table 包功能特性学习

# 返回第二列为一个向量 DT[, V2] ## [1] "A" "B" "C" "A" "B" "C" "A" "B" "C" "A" "B" "C" # 返回第二列与第三列为一个data.table...DT[, sum(V1)] ## [1] 18 # 返回V1列的和，V3列的标准差为一个data.table DT[, ....,V2分组，返回V3的均值 DT[, mean(V3), by=....V2 V3 V4 ## 1: A -1.49 22 ## 2: B -1.49 26 ## 3: C -1.49 30 链 # 按V1分组求V4列的和 DT2 <- DT[, ....(V4.sum=sum(V4)), by=V1] # 选择和>40的行 DT2[V4.sum>40] ## V1 V4.sum ## 1: 2 42 # 按V1分组，V1排序计算V4和

1.9K1 0

转录组测序结果分析

symbol proj = "cov"#1.获取表达矩阵dat = data.table::fread("GSE150392_Cov_Mock_Raw_COUNTS.csv.gz")####保留symbol..." data.table = F)# 保留ensembl id ，行名转换exp = as.matrix(dat[,4:9])rownames(exp) = dat[,1]library(tinyarray...三大R包差异分析输入数据都是count矩阵和对应的分组信息。...table(DEG1$change)head(DEG1)####⚠️注意列名是什么，logFC和log2FoldChange，写代码时注意。...###参数是一个数据框，对他的行名取子集，取出change列是UP的行名。###三个R包差异分析结果都有统一的change列，所以可以用相同的函数取子集。

1612 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭