汇总名称在data.table中具有特定模式的列

在data.table中，可以使用正则表达式来筛选具有特定模式的列。具体而言，可以使用grep()函数来实现这一功能。

grep()函数接受两个参数：正则表达式模式和要搜索的字符向量。它返回一个整数向量，其中包含与模式匹配的元素的索引。

以下是一个示例，演示如何在data.table中查找具有特定模式的列：

library(data.table)

# 创建一个示例data.table
dt <- data.table(
  col1 = c(1, 2, 3),
  col2 = c(4, 5, 6),
  col3 = c(7, 8, 9),
  column4 = c(10, 11, 12)
)

# 使用grep()函数查找具有特定模式的列
pattern <- "col"  # 模式为以"col"开头的列名
matching_cols <- grep(pattern, names(dt), value = TRUE)

# 输出匹配的列名
print(matching_cols)

输出结果为：

[1] "col1"   "col2"   "col3"   "column4"

在这个例子中，我们使用grep()函数和正则表达式模式"col"来查找data.table中以"col"开头的列。最终，我们得到了匹配的列名。

对于data.table中具有特定模式的列，可以使用这个方法进一步进行各种操作，例如筛选、计算、重命名等。

相关·内容

R语言基因组数据分析可能会用到的data.table函数整理

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...前面三个选项都是用新的特定C代码写的，较快; buffMB 每个核心给的缓冲大小，在1到1024之间，默认80MB; nThread 用的核心数; showProgress 在工作台显示进程...代表无变量； fun.aggregate 是否在铸造之前汇总，应提供函数list（比如mean，sum或者c(sum,mean))，默认length； sep 铸造的时候连接字符变量的连接符...显示没有联合成功的行列 value.var 填充值的列，默认会猜测现在我需要取数据DT的v1,v2两列相同的情况作为汇总的一类，对它们的v4值取平均，转换如下，...by ]语法做但是如果我要将上述DT中的v3作为一个影响因素，作为tag，先按v1、v2汇总，再将对应的v4值分为v3=1和v3=2两类，查看v1、v2取值相同v3不同对应v4的情况，这个时候用dcast

3.4K1 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

2.aggregate函数不能对分组后的数据进行多种汇总计算，因此要用两句代码分别实现sum和max算法，最后再用cbind拼合。显然，上述代码在性能和易用性上存在不足。...三、split – apply – combine模式——分组处理模式对数据的转换，可以采用split – apply – combine模式来进行处理： split：把要处理的数据分割成小片断； apply...可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。

20.8K3 2

R语言学习笔记之——数据处理神器data.table

DT[i,j,by] 如果这个过程是SQL中是由select …… from …… where …… groupby …… having 来完成的，在R的其他基础包中起码也是分批次完成的。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...如果想要运行的同时进行输出则可以在结尾加上[] setorder(mydata,carrier,-arr_delay)[] ? 这个功能有点儿类似于基础函数中，在语句外部加上圆括号。...以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑，其实是在按照carrier,origin,dest三个维度分组的基础上，对每个子块特定列进行均值运算。...就是如此简单，连接的执行逻辑是，内侧是左表，外侧是右表，所以是DX left join DT 如果没有设置主键，需要显式声明内部的on参数，指定连接主键，单主键必须在左右表中名称一致。

3.6K8 0

MR应知应会：MungeSumstats包

Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...strand_ambig_filter 应删除具有链模糊等位基因的 SNP。默认为FALSE。 allele_flip_check 是否应根据参考基因组检查等位基因列以推断是否需要翻转。...有时，汇总统计信息可以在一行上有多个 RSID（即与一个 SNP 相关），例如“rs5772025_rs397784053”。...imputation_ind 应该为每个插补步骤添加一列，以显示哪些 SNP 对不同字段具有插补值。这包括表示 SNP 等位基因翻转（翻转）的字段。...但是，如果 youf 文件中的列标题丢失，我们提供的映射不正确，您可以提供自己的映射文件。必须是 2 列数据框，列名称为“未更正”和“已更正”。

2.1K1 1

开发ETL为什么很多人用R不用Python

对比python中的datatable、pandas、dask、cuDF、modin，R中data.table以及spark、clickhouse 3....探讨R中的ETL体系 ETL在数据工作中起着至关重要的作用，主要用途有两个：（1）数据生产（2）为探索性数据分析与数据建模服务。...做过建模的小伙伴都知道，70%甚至80%的工作都是在做数据清洗；又如，探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此，ETL效率在整个项目中起着举足轻重的作用。...测试内容：对于id3, id4两列分类汇总求v3的中位数与标准差 data.table用时10.5秒 data[, ....目前本人工作中负责一个项目的数据生产，大致流程如下。首先，用presto从hive中读取数据，从ADB读取数据，数据量在5G左右。

1.9K3 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。...前面三个选项都是用新的特定C代码写的，较快 buffMB,每个核心给的缓冲大小，在1到1024之间，默认80MB nThread,用的核心数。...比如此例取出DT 中 X 列为"a"的行，和"a"进行merge。on参数的第一列必须是DT的第一列 DT[....(sv=sum(v))] #对y列求和，输出sv列，列中的内容就是sum(v) DT[, ...., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的

5.9K2 0

「R」数据操作（八）：dplyr 的 do, do, do

与data.table类似，dplyr也提供了do()函数来对每组数据进行任意操作。例如将diamonds按cut分组，每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...~ carat, data = .) #> #> Coefficients: #> (Intercept) carat #> 6.78 1.25 在需要完成高度定制的操作时...假如我们需要分析toy_tests数据，要对每种产品的质量和耐久性进行汇总。如果只需要样本数最多的3个测试记录，并且每个产品的质量和耐久性是经样本数加权的平均数，下面是做法。

1.7K3 1

「R」数据操作（三）：高效的data.table

N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...接下来，我们学习如何通过by以简便的方式实现数据的分组汇总。...然后在每个子集data.table的语义中计算j表达式。...("volume") #> year average #> 1: 2015 4000 #> 2: 2016 4003 我们可以利用此包专门的语法创造一个列数动态变化的组合，并且组合中的列是由动态变化的名称决定的

6.3K2 0

数据流编程教程：R语言与DataFrame

在实际使用中，data.talbe::fread()的读取速度可以比原生的read.csv有3-10倍的提升速度。...(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分（3）集合操作 intersect(x, y): x 和 y 的交集（按行） union(x, y): x 和 y...的并集（按行） setdiff(x, y): x 和 y 的补集（在x中不在y中）更多详细操作可以参考由SupStats翻译的数据再加工速查表，比Python的老鼠书直观很多。...3. purrr purrr向Scala这样的具有高级类型系统的函数式编程语言学习，为data frame的操作提供更多的函数式编程方法，比如map、lambda表达式。

3.9K12 0

【技巧】如何快速按照日期分组

问题的提出在处理数据的时候，我们常常需要按照日期对数据进行分类汇总，例如每周、每月、每年汇总等。常见的做法是建立一个用于分类的变量，然后再按照这个变量进行汇总。...再次，这种常规方法很难处理一些不规则的日期间隔，例如我希望每隔3天对数据汇总一次；或者再变态一点，我希望把数据分成两组：一组是周三，另一组是非周三。遇到这种情况，我们该怎么办呢？...本期大猫将教大家使用 data.table包的 keyby语句完成上述任务。...按照“是否为周三”进行分类如果我们想把样本分成两组，一组是周三（True），一组是非周三（False），则只要使用 wday(date)==3来生成一列值为 True或者 False的向量就行。...按照“每个三天”分类为了按照任意间隔进行分类，我们需要用到 data.table包中的 ceiling_date函数。

2.5K3 0

For循环与向量化（Vectorization）

通过对水友们问题的汇总，我们发现大多数水友存在一些R语言的应用误区，在此出一期关于该问题的解读。问题提出首先思考一个典型的增长率的计算的例子。假设我们有一列时间序列，每个都记录着时刻的值。...向量作为最基本的数据结构，其在进行底层编写的时候，进行了很大程度的优化设计。向量有时候作为一种基本的编写思路，是具有很高效率的。有鉴于此，我们通过R语言最底层的向量思维进行函数编写。...由于我们需要做的是向量中某一个元素与前一个元素的处理结果，那么只需要将元素往后进行移位，与原来的向量进行一一对应的处理即可，这样便达到了以向量进行处理的模式。...关于For循环和Vectorization的深入思考 Vectorization在更多包的拓展现在有很多的R包会对底层的一些函数进行优化，也即是对向量化的进一步优化，我们选择效率较为强大的data.table...通过运行结果可以发现，Rcpp调用的底层循环略优于data.table的向量化，运行时间在0.03s左右。

1.8K3 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...除了行，就是列的问题了。在data.table操作列，真的是费劲。。。常规来看， data[，....(x)] 还有 data$x 如果有很多名字很长的指标，data.table中如果按列进行遍历呢？ data[,1]是不行的，选中列的方式是用列名。

8.6K4 3

「Workshop」第五期：使用data.table操作数据

的部分函数在使用的过程中会直接对原来的数据进行改写，为了防止原来的数据被改变，使用拷贝的文件。...按相同的列内容进行data.table组合 ?...读取或写出文件 fread(".csv", select = c("a","b")) 读取.csv或.tsv格式的文件，可以选择特定列读取 fwrite(dt, ".csv")...foverlaps(x, y, type="any", mult="first") ⚠️：如果x和y索引的列名称不同时，在foverlaps()内加上一行参数 by.x =c("", "", "")...对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt <- data.table(kinds = c(rep("peach", 2), rep("grape",

3.3K5 0

5个例子比较Python Pandas 和R data.table

data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...Price > 1000000 & Type == "h"] 对于pandas，我们提供dataframe的名称来选择用于过滤的列。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3.1K3 0

好强一个Julia！CSV数据读取，性能最高多出R、Python 22倍

单线程CSV.jl是没有多线程的Pandas（Python）的1.5倍，而多线程的CSV.jl可以达到11倍。字符串数据集 I 此数据集在且具有1000k行和20列，并且所有列中不存在缺失值。 ?...单线程CSV.jl比data.table快2.5倍，而在10个线程中，CSV.jl则大约比data.table快14倍。字符串数据集 II 该数据集的大小与字符串数据集 I 中相同。...单线程中，CSV.jl比R快2倍，而使用10个线程则快了10倍。按揭贷款风险数据集从Kaggle取得的按揭贷款风险数据集是一种混合型的数据集，具有356k行和2190列。...在Julia，Python和R的测试中，引发了网友们更多关于“技术更新”的热烈讨论。...有些网友对于Julia给予了极大的期待：在过去的十年中，大多数生态系统在Python上都具有巨大的价值，尤其是将MATLAB抛在脑后。

2K6 3

Matt Dowle 演讲节选（二）

换句话说，哪怕在 global environment 中存在一个叫做 B 的变量，那么data.talbe在运行的时候也会“认” DF 中的那个叫做 B 的列，而不是 global environment...Matt 是这样想的：在data.frame中，如果我们想要选择region这个变量为特定值的关泽，那么代码就会是下面这样： > DF[DF$region == "US", sum(population...因为任何对列的处理都必须导致数据集在内存中的复制，也即假如我们的内存是 4G，那么在使用data.frame的情况下，我们最大就只能处理 2G 的数据集！...一个更极端的例子是，加入你在 4G 内存中装下了一个 3G 的数据集，这时你想要删去其中的一列都是不可能的，因为在data.frame中，哪怕删除操作都会导致数据集的复制！...在这个2012年（注意dplyr的最早版本在2016年！）的帖子中，一个用户需要处理以下数据集（这里只显示前6行） ? 他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。

1.1K4 0

CMap数据库学习及结果可视化

揭示基因功能和病理学机制:通过将特定基因的基因敲除或过表达实验的基因表达谱与 CMap 数据库中的药物处理基因表达谱进行比较，研究人员可以推断出该基因在特定生物过程中或疾病中的作用。4....疾病关联研究:CMap 可以用于研究不同疾病的分子机制。通过比较不同疾病的基因表达特征，可以识别出与特定疾病相关的分子标志物或潜在的治疗靶点。5....工作原理：CMap 数据库的核心是大量的基因表达谱，这些表达谱是通过微阵列或 RNA-seq 技术获得的，记录了细胞在不同化合物、基因干扰或基因过表达处理后的基因表达变化。...网页及代码分析流程1、进入官网(https://clue.io/)，注册登录后点击tools中的Query(主要用这个，其他的可自行探索) 2、查看工作界面左侧(1)红框代表设置的项目名称；(2)红框代表选择上传数据的情况...# Name：指定将作为“宽格式”数据的列名的变量。# 这意味着dcast会将input数据框中具有相同Description的行聚合在一起，并为每个Name创建单独的列。

2212 1

R语言进阶笔记2 | 长数据与ggplot2

之前介绍了如何将多个性状的箱线图放在一个图上，比如learnasreml包中的fm数据，它有h1~h5五年的株高数据，想对它进行作图。...问题来了，什么是「长数据」，什么是「宽数据」（不是短数据，这不是反义词，谢谢）「宽数据：」 ❝即变量是多列数据，每一列都是一个值，比如株高数据，第一年的株高是一列，第二年的株高是一列，第三年的株高是一列...现在我用melt函数时，就不用载入reshape2了，直接用data.table包就行 tidyverse中的tidyr中的pivot_longer函数，这个更简单，用过这个函数，再也没有迷路过。...第三个names_to是变量的名称，这里定义为Year 第四个values_to是保存的性状名，这里是Height 可以看到，长数据有3列，分别是： TreeID Year Height 3. ggplot2...作图怎么搞之前我使用ggplot2作图时，想做什么图，就在网上copy代码，然后根据自己的数据名称，修改代码，然后运行代码。

9502 0

data.table包使用应该注意的一些细节

fread中nThread 参数的使用注意默认nThread=getDTthreads()，即使用所有能用的核心，但并不是核心用的越多越好，本人亲自测试的情况下，其实单核具有较强的性能，只有在数据大于...因此对于不是非常巨大的文件，建议设置为1，不要使用全部核心 fread中sep是自动检测的所以在循环读入文件的过程中，就算不同文件的分隔符不同，也可以循环一次性方便的读入；还有就算后续改变了文件的分隔符... as.matrix作用于data.table时会调用as.matrix.data.table，有一个rownames参数可以指定保留为行名的列矩阵转换成data.table时可以保留列名在...as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值，但在R...中的0.6就不等于0.6，虽然很费解，但这是因为计算机在存储浮点数时出现的一些问题。

1.5K1 0

mlr3_建立task

空间任务：样本具有时空信息建立任务使用mtcars数据集，建立一个回归任务，使用两个特征预测目标变量mpg（每公里油耗）的值 # 导入数据 data("mtcars", package = "datasets...其中2列是特性，1列是目标。...预置的任务 mlr3中有一些已经定义好的任务，用来学习 mlr_tasks ## with 10 stored values ## Keys: boston_housing...，只需将其转换为data.table summary(as.data.table(task_iris)) Roles(行列) 为行和列指定角色，这些roles决定着任务的一些特性比如，前面构造的mtcars...# 添加额外的行 task$cbind(data.table(foo = letters[1:3])) task$head() ## Species Sepal.Length Sepal.Width

6264 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云