通过对其他列应用函数来创建新的data.table列

是一种在R语言中使用data.table包进行数据处理的方法。data.table是一个高效的数据处理工具，可以处理大型数据集，并提供了许多方便的函数和操作符。

在data.table中，可以使用:=操作符来创建新的列。通过对其他列应用函数，可以根据已有的数据计算出新的值，并将其赋给新的列。

以下是一个示例代码：

library(data.table)

# 创建一个示例数据表
dt <- data.table(x = c(1, 2, 3), y = c(4, 5, 6))

# 使用:=操作符创建新的列
dt[, z := x + y]

# 输出结果
print(dt)

上述代码中，我们创建了一个包含两列（x和y）的数据表dt。然后，使用:=操作符创建了一个新的列z，该列的值是x和y列对应位置的和。最后，通过打印数据表dt，可以看到新的列z已经成功创建。

这种方法可以用于各种数据处理任务，例如计算统计指标、应用复杂的逻辑函数、进行数据转换等。通过使用data.table的高效性能和便捷的语法，可以快速地处理大规模数据集。

腾讯云提供了云计算相关的产品和服务，例如云服务器、云数据库、云存储等。您可以根据具体需求选择适合的产品进行部署和开发。更多关于腾讯云产品的信息，可以访问腾讯云官方网站：https://cloud.tencent.com/

相关·内容

5个例子比较Python Pandas 和R data.table

data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...示例2 对于第二个示例，我们通过应用几个过滤器创建原始数据集的子集。这个子集包括价值超过100万美元，类型为h的房子。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...对于data.table，我们使用setnames函数。它使用三个参数，分别是表名，要更改的列名和新列名。总结我们比较了pandas和data.table在数据分析操作过程中常见的5个示例。

3.1K3 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。...设置key的方式有很多种： 1、创建数据时直接设置key dt data.table(a=c('A','B','C','A','A','B'),b=rnorm(6),key="a") 2、setkey...),2), LETTERS[4:6])] DT[, c("V1","V2") := NULL] 通过list的方式来更新了数据，以及使用null的方式来删除列。....SDcols常于.SD用在一起，他可以指定.SD中所包含的列，也就是对.SD取子集。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

9.3K4 3

「R」数据操作（三）：高效的data.table

data.table和data.frame，也就是说data.table继承了data.frame的一些行为，但增强了其他部分。...这样挺麻烦的，因此data.table包提供了对列进行原地赋值的符号:=，例如product_stats开始是这样的： product_stats #> id material size weight...下面举例说明，首先创建有1000万行的数据，其中一列是索引列id，其他两列是随机数： n = 10000000 test1 = data.frame(id = 1:n, x = rnorm(n), y...为演示，我们先创建新的data.table，命名为market_data，其中date列是连续的。...(year = year(date))] } 这里我们使用.SD[[x]]提取x列的值，这跟通过名字从列表中提取成分或元素相同。

6.4K2 0

「R」数据操作（八）：dplyr 的 do, do, do

与data.table类似，dplyr也提供了do()函数来对每组数据进行任意操作。例如将diamonds按cut分组，每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...> 2 Good #> 3 Very Good #> 4 Premium #> 5 Ideal 注意结果创建了一个新列...，该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...我们可以通过索引来提取模型结果： models$lmod[[1]] #> #> Call: #> lm(formula = log(price) ~ carat, data = .) #> #> Coefficients

1.7K3 1

新书《R语言编程—基于tidyverse》信息汇总

、“优雅的” 方式，以管道式、泛函式编程技术实现。...新本书绝大部分内容都是参阅最新版本R包的相关文档，很少参阅书籍（而且尽量参阅最新的在线版本）。本书全面采用最新的R语言技术编写，特别是 tidyverse “整洁流、管道流、泛函流”数据科学。...精心准备实例编程语法讲透彻还不够，必须配以合适的实例来演示，所以也请读者一定要将编程语法讲解与配套实例结合起来阅读，比起实例代码调试通过，更重要的是借助实例代码理解透彻该编程语法，所包含的编程思维。...、R连接数据库、中文编码问题及解决办法），数据连接（数据按行/列拼接、SQL数据库连接），数据重塑（“脏”数据变“整洁”数据，长宽表转换、拆分与合并列），数据操作（选择列、筛选行、对行排序、修改列、...第四章，应用统计 R语言是专业的统计分析软件，广泛应用于统计分析与计算。

2.4K2 1

R练习50题 - 第一期

写在前面从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。...关于data.table的神奇之处以及它和其他工具（例如pandas）的比较，欢迎大家戳它的官网：github.com/Rdatatable/data.table....虽然具有明显的金融背景，但是它和其他学科所遇到的数据集是相通的：在我们的数据集中，每个股票代码symbol和日期date的组合都决定了唯一的一个观测，相当于数据集的key，这种由“横截面”与“时间序列”...unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = .

2.5K4 0

R数据框如何取交集

一般对于多个数据库或者多个软件预测的结果，可以通过取交集来提高预测结果的可信度，并且这样也能大大减少最后预测结果的数目。...miRNA预测结果都是两列的数据框。...我们首先来创建两个数据框，模拟一下不同的软件的预测结果 set.seed(123) df1=data.frame(mir=sample(LETTERS,26),target=c(rep("TP53",...函数来对数据框取交集，结果是不对的而我们希望得到的结果是对两列都取交集。...下面给大家介绍三种对R数据框取交集的方法方法一、我们将各列的信息合并成一个字符串，然后取交集 #将各列的信息用_连接起来 combine1=apply(df1,1,function(x) paste

1.7K2 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

sep2，分隔符内再分隔的分隔符，功能还没有应用； nrow，读取的行数，默认-l全部，nrow=0仅仅返回列名； header第一行是否是列名； na.strings,对NA的解释； file...(y)] #返回y列，返回data.table DT[, sum(y)] #对y列求和 DT[, ....(sum(y)), by=x] # 对x列进行分组后对各分组y列求总和 DT[, sum(y), keyby=x] #对x列进行分组后对各分组y列求和，并且结果按照x排序 DT[, sum(y)...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列，按x分组，输出max(y),对y到v之间的列每列求最小值输出。...SD就包括了页写选定的特定列，可以对这些子集应用函数处理 allow.cartesian FALSE防止结果超出nrow(x)+nrow(i)行，常常因为i中有重复的列而超出。

5.9K2 0

R语言处理一个巨大的数据集，而且超出了计算机的内存限制

使用R编程处理一个超出计算机内存限制的巨大数据集时，可以采用以下策略（其他编程语言同理）：使用数据压缩技术：将数据进行压缩，减小占用的内存空间。...可以使用data.table包或readr包的分块读取数据的功能。使用索引：为了加快数据检索速度，可以在处理大型数据集时使用索引。...可以使用index函数或dplyr包中的arrange()函数来创建和使用索引。...可以使用readr或data.table包的函数将数据集写入硬盘，并使用时逐块读取。数据预处理：在加载数据之前，对数据进行预处理，删除或合并冗余的列，减少数据集的大小。...使用其他编程语言：如果R无法处理巨大数据集，可以考虑使用其他编程语言（如Python、Scala）或将数据导入到数据库中来进行处理。

1.1K9 1

R语言学习笔记之——数据处理神器data.table

在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务...其实很早就接触过data.table,之所以一直没有深入应用，因为它的理念与其他数据处理包偏离太远，可以说迁移成本很高，几乎就是技能重构而非迁移。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑，其实是在按照carrier,origin,dest三个维度分组的基础上，对每个子块特定列进行均值运算。...SD, mean)则将各个子块的对应列应用于均值运算，并返回最终的列表。

3.6K8 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

(V2),V3) 对V1，V3升序排序，对V2降序排序 ※arrange的语法非常简单，功能也很强大，我们再也不要用order()函数了 select( ) 选择列 select(df,V1,V2,V3...mutate( ) 为数据增加新列 mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 与基础包里的transform()函数接近，但mutate可以使用你刚刚创建的column...对！我们要的就是简洁简单！有这么好的作者给你开发了这么好的packages，你就放心大胆的用呗，不用自己去写基础代码造轮子的事，多好！！...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的，在列上面进行操作 ③返回的都是新的数据集，不会改变原始数据集在介绍下一个包之前，我们先来引入一个dplyr包的综合运用： grouped..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢

2.5K7 0

R语言与python对数据框的操作(对比笔记)

1. data.table VS pandas 这里使用R语言的data.tablet包和python的pandas进行对比....使用R语言, 通过data.table创建数据框. library(data.table) set.seed(123) DT data.table(V1=c(1,2),V2=c("A","B","...2.2 行列筛选选择V2等于A的列 DT[V2=="A"] ? 也可以使用下面这种形式 DT[V2=="A",] ?...如果选择V2等于A或者等于B的列 DT[V2 == "A"|V2=="B"] ? 也可以使用%in%进行多条件选择 DT[V2 %in% c("A","B")] ?...创建新列V5 df.V5 = df.V3*df.V4 df ?

2.9K2 0

「R」data.table 包功能特性学习

来自很久之前的官网文档。 data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。...如果你还没有安装该包，运行： install.packages("data.table") 导入包 library(data.table) 创建一个data.table set.seed(45L)...DT[, sum(V1)] ## [1] 18 # 返回V1列的和，V3列的标准差为一个data.table DT[, ....(sum(V1), sd(V3))] ## V1 V2 ## 1: 18 0.455 # 跟上面一样，但生成新的列名 DT[, ....列打印，对V3列绘图 DT[, .

1.9K1 0

MR应知应会：MungeSumstats包

该推论首先来自输入文件的列标题，但是，等位基因翻转检查通过将 A1（应该是参考等位基因）与参考基因组进行比较来确保这一点。...这只能作为最后的手段。 force_new_z 当“Z”列已经存在时，默认使用它。要从 P 设置为 TRUE 覆盖并计算新的 Z 分数列。 compute_n 是否插补 N。...Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...imputation_ind 应该为每个插补步骤添加一列，以显示哪些 SNP 对不同字段具有插补值。这包括表示 SNP 等位基因翻转（翻转）的字段。...对于翻转值，这表示等位基因是否根据 MungeSumstats 从输入列标题中选择的 A1、A2 进行切换，因此可能与创建者的意图不符。请注意，这些列将出现在返回的格式化摘要统计信息中。

2.5K1 1

R语言机器学习之构建并操作Task（2）（mlr3包系列）

在昨日的推送中，我和大家简单介绍了如何创建与操作task对象，今天咱们接着深入了解一下。...，前三列），该数据集列名就是车的型号 #我们把mtcars的前3列转化为“data.table”，并保留行名 data = as.data.table(mtcars[, 1:3],keep.rownames...= TRUE) #创建回归模型的Task（id，backend和target的定义请参考上期内容） task = TaskRegr$new(id = "cars", backend= data, target...只保留1到3行的数据 task$head() # 查看数据 task$cbind(data.table::data.table(foo =letters[1:3])) # 按列合并数据，也即添加一列新数据...task$head() # 查看数据关于mlr3包的Task对象的创建和操作就讲到这里，希望大家多多练习，熟练掌握！

5591 0

「Workshop」第五期：使用data.table操作数据

图片引自：https://rstudio.com/ 创建data.table setDT() setDT()适用于对'list', 'data.table', 'data.frame'这三种类型，它比as.data.table..." "data.frame" as.data.table() as.data.table()的适用范围更广 data.table::copy() 复制数据起一个新的名字，因为data.table...对列进行计算 sum()、mean()、median()、min()、max()...(x = sum(number))] x 1: 20 添加列 := 直接在原数据上增加新列或替换旧列 > dt[name == "apple", c := 1+2] > dt[name ==...按相同的列内容进行data.table组合 ?

3.3K5 0

如何批量给自己的文件重命名

应用Windows日常办公，很多时候为了更快识别自己文件夹的文件，我们常需要对文件进行重命名自己偏好习惯，个位数的文件重命名，无非就是耗费自己一两分钟的时间，点点鼠标，然后重命名，输入文件名即可。...保存成TXT文件，然后读进R，后面就开心的玩耍吧： rm(list = ls()) ##读入文件 dat data.table::fread('NHANESLaboratoryData.txt',...好办，通过xpt[,2]和tmp[,'Data File']列进行匹配，以确定自己是否全部文件已经下载完成。...最后就是拼接，tmp文件中，第一列（Years）和第四列(Data File）拼接起来： ?...（偷偷的告诉你哟，file.rename函数来自于base包的哟，xpt文件为SAS数据文件，可以通过R中，foreign包一键读取哟）

1.7K2 0

R语言：哪个函数解析时间最快？

然而，谁能保证我们拿到的数据都是完美遵循ISO标准的呢？ 2 速度快一般来说，时间日期格式在R内部都是用整数来代表的，因为整数占用空间小，运算速度特别块。...其次，很多运算都在底层对整数做了优化，因此处理起来要远远快于字符。 3 提供给你无穷可能一旦把字符时间转换成特定的时间日期格式，那么我们就可能充分利用R中众多的时间日期函数。...“ 那么现在问题来了，R中提供了许多函数来完成字符时间的解析，我们究竟应该用哪个好呢？...” 函数测试先来看以下我们的样例数据集： ?...非常简单，只有两列变量“id”和“date”，其中date是字符格式，从“0001-01-01”开始逐日递增一直到“2738-11-28”，共有100万行。

1.5K5 0

R海拾遗--data.table初级学习

data.table初级学习概述 data.table对于大数据的数据整理较为便捷，很多的时候比data.frame效率更高，一般情况下结合管道符号进行计算管道符 %in% 表示包含 %>% 表示向右传递...%$% 表示向右传递并直接按列操作安装 install.packages("data.table") install.packages("magrittr") library(magrittr) library...(data.table) 使用方法简单操作 iris% as.data.table() class(iris) # 行数 nrow(iris) # 列数 ncol(iris)...(Species)] #返回一个data.table iris[, c("Species"), with=FALSE] #返回一组数据框 # 保留多列 iris[, ....(Sepal.Length, Sepal.Width, Species)] # 对变量进行重命名 setnames(iris, c("Species"), c("new_Species")) # 对多个变量进行重命名

7663 0

R语言基因组数据分析可能会用到的data.table函数整理

sep 列之间的分隔符； sep2 分隔符内再分隔的分隔符，功能还没有应用； nrow 读取的行数，默认-l全部，nrow=0仅仅返回列名； header 第一行是否是列名...前面三个选项都是用新的特定C代码写的，较快; buffMB 每个核心给的缓冲大小，在1到1024之间，默认80MB; nThread 用的核心数; showProgress 在工作台显示进程...，默认_； subset 指定要铸造的子集;利用； margins 函数尚不能应用（作者还没写好），预计设定编辑汇总方向； fill 填充缺失值； drop 设置成FALSE...显示没有联合成功的行列 value.var 填充值的列，默认会猜测现在我需要取数据DT的v1,v2两列相同的情况作为汇总的一类，对它们的v4值取平均，转换如下，...，可以用beween foverlaps 寻找重叠的区域,返回index对,x是数据很大但都是小区域的data.table，用来检索，y是检索用的资料，数据较小，都是大区域。

3.4K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云