开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

问:用data.table根据其他元素的数量随机挑选行？

答：在使用R语言中的data.table库时，可以根据其他元素的数量随机挑选行。具体操作可以按照以下步骤进行：

首先，使用data.table库加载数据集，并确保数据集以data.table的形式存储。
接下来，使用data.table的by参数指定要根据的元素，使用sample函数进行随机抽样。

下面是一个示例代码：

library(data.table)

# 加载数据集
dt <- data.table(
  id = c(1, 2, 3, 4, 5),
  category = c("A", "B", "A", "B", "A"),
  value = c(10, 20, 30, 40, 50)
)

# 根据category的数量随机挑选行
sample_rows <- dt[, sample(.I, size = .N, replace = FALSE), by = category]

# 输出结果
sample_rows

在上述示例中，我们首先加载了一个包含id、category和value三列的数据集。然后，使用sample函数和.I特殊变量来随机抽样行，其中.I表示行索引。通过by = category指定根据category列进行分组，即根据category的数量来进行随机抽样。最后，将结果存储在sample_rows变量中并输出。

对于腾讯云相关产品，可以使用腾讯云提供的云服务器（CVM）来搭建R语言环境，并使用云数据库（TencentDB）来存储和管理数据。此外，腾讯云还提供了云函数（SCF）和人工智能服务（AI）等产品，可以进一步扩展和优化数据处理和分析的能力。

腾讯云云服务器（CVM）产品介绍：https://cloud.tencent.com/product/cvm

腾讯云云数据库（TencentDB）产品介绍：https://cloud.tencent.com/product/cdb

腾讯云云函数（SCF）产品介绍：https://cloud.tencent.com/product/scf

腾讯云人工智能服务（AI）产品介绍：https://cloud.tencent.com/product/ai

相关搜索:根据其他列获取data.table行之间的差异如何根据各种条件选择随机数量的行？如何根据条件删除Pandas数据帧中特定数量的随机行？R根据其他列有条件地添加指定数量的新行为data.table的每一行从向量中选取一个随机元素如何根据元素的数量建立一个2行2列的动态网格？根据r中同一行中其他元素的值更改数据框值如何根据决策变量(一个用于行，一个用于列)从矩阵( Python中的列表列表)中挑选元素| OR-Tools，Python dz html设置动态时间html5

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言︱情感分析—基于监督算法R语言实现（二）

比如本来是针对汽车销售行业构建的模型迁移到快消行业，准确性就有可能下降，为了保证准确性，须要挑选快消行业的训练集进行重训练，那问题来了，这种训练集一般要成千上万条文本评论，人工挑选的话也许会让人筋疲力尽...，用去重的id来计算length，就是代码中的total，每个词的文档数，就是每个词在所有文档的数量，用table来计数，公式中很多要素都跟DF值一样。...其中肯定存在很多问题：训练集的DF、IDF相当于是固定的，然后根据词库匹配，跟测试集合并，那么DF、IDF就不受测试集词语数量的影响了?...也就是一定意义上的稀疏矩阵（同关联规则），也就是将long型数据框转化为wide型数据框。转换可以用的包有reshape2以及data.table。...图6 （2）测试集的随机森林建模测试集建立随机森林模型，还是需要去除缺失值，然后重命名列名，因为模型不接受id这一行作为输入变量，输入的数据集一定要干净。 test <- test[!

1.7K2 0

文本情感分析：特征提取（TFIDF指标）&随机森林模型实现

比如本来是针对汽车销售行业构建的模型迁移到快消行业，准确性就有可能下降，为了保证准确性，须要挑选快消行业的训练集进行重训练，那问题来了，这种训练集一般要成千上万条文本评论，人工挑选的话也许会让人筋疲力尽...，用去重的id来计算length，就是代码中的total，每个词的文档数，就是每个词在所有文档的数量，用table来计数，公式中很多要素都跟DF值一样。...其中肯定存在很多问题：训练集的DF、IDF相当于是固定的，然后根据词库匹配，跟测试集合并，那么DF、IDF就不受测试集词语数量的影响了?...也就是一定意义上的稀疏矩阵（同关联规则），也就是将long型数据框转化为wide型数据框。转换可以用的包有reshape2以及data.table。...图6 （2）测试集的随机森林建模测试集建立随机森林模型，还是需要去除缺失值，然后重命名列名，因为模型不接受id这一行作为输入变量，输入的数据集一定要干净。 test <- test[!

8.9K4 0

一行代码搞定分组回归

问题引入很多时候我们需要处理的数据集中会有一个变量用于标记变量所在的组。例如下图中，stkid（我们可以把它想象成股票代码）有五种可能：a, b, c, d, e，每一个字母表示一只股票。...stkid代表分组变量，有a, b, c, d, e五个类别；x和y分别随机生成 dt <- data.table(stkid = sample(letters[1:5], 100, replace =...其中的原理是，data.table最终的输出必须是一个class为list的元素，符合条件的除了list自己，还包括 data.frame，data.table等。...还是只需要一行，大猫在这里给出答案（重点已经用红笔标出来啦）： result <- dt[, c(reg1 = as.list(coef(lm(y ~ x, .SD))), reg2 = as.list...下期预告下期我们继续探索data.table包的强大功能，大猫教大家如何用一行代码搞定滚动回归！

3.5K4 0

关于data.table中i, j, by都为数字的理解

写在前面本期还是由村长来为大家供稿，这期讲一个村长遇到的关于data.table比较有趣的问题，希望大家支持！！问题：i, j, by同时输入数字会怎样？...以mtcars这个R自带的数据集为例，我们知道mtcars[1]的运行结果，是选择这个数据集的第一行，结果如下： ? mtcars[1,1]的运行结果，是选择第一行第一列的元素，结果如下： ?...问题解析为了弄清楚这个问题，我们根据i, j, by运行的顺序：“先i，再by，最后j”，将i, j, by拆解进行分析。...首先，我们单独看i只有一个1的情况下是什么运行结果，为了让运行出来的代码被认定是data.table的格式，我们在j中加入.SD（不清楚.SD用途的小伙伴可以查看data.table的manual，或者查看笔者上一篇推送用...可见，在DT的i中输入一个数字和用一般的提取符号`[`只输入一个数字的结果完全一样，就是提取这个数据集中的某一行。

1.2K3 0

「R」数据操作（三）：高效的data.table

data.table和data.frame，也就是说data.table继承了data.frame的一些行为，但增强了其他部分。...data.table的基本语法是dt[i, j, by]，简单说就是使用i选择行，用by分组，然后计算j。接下来我们看看data.table继承了什么，增强了什么。...1个参数是行筛选器，第2个则对筛选后的数据进行适当的计算。...下面举例说明，首先创建有1000万行的数据，其中一列是索引列id，其他两列是随机数： n = 10000000 test1 = data.frame(id = 1:n, x = rnorm(n), y...- test1[.(876543)]) #> 用户系统流逝 #> 0.001 0.000 0.000 结果一致，但data.table用的时间要少得多。

6.3K2 0

谁是PythonRJulia数据处理工具库中的最强武器？

Python/R/Julia中的数据处理工具多如牛毛「如pandas、spark、DataFrames.jl、polars、dask、dplyr、data.table、datatable等等」，如何根据项目需求挑选趁手的武器...7种Python工具 dask pandas datatable cuDF Polars Arrow Modin 2种R工具 data.table dplyr 1种Julia工具...，数据量 0.5GB 数据 10,000,000,000行、9列 5GB 数据 100,000,000,000行、9列 50GB 数据1,000,000,000,000行、9列 groupby性能比较以下各种需求的效率...，详细代码，见每个柱子图上方， join性能比较以下各种需求的效率，详细代码，见每个柱子图上方， ---- 评估结果 groupby 可以看到Python中的Polars、R中的data.table...join 同样可以看到Python中的Polars、R中的data.table在join时表现不俗，详细， 0.5GB数据 join 5GB数据 join 50GB数据 join 小结 R中的data.table

1.7K4 0

【建议收藏】Redis知识干货汇总

数组可以包含多个元素，每个元素都包含一个指向其他节点的指针，程序可以通过这些层来加快访问其他节点的速度，一般来说，层的数量越多，访问其他节点的速度就越快。...每次创建一个新跳跃表节点的时候，程序根据幂次定律(power law，越大的数出现的概率越小)随机生成一个介于1和32之间的值作为level数组的大小，这个大小就是层的“高度”。...poll poll 的机制与 select 类似，与 select 在本质上没有多大差别，管理多个描述符也是进行轮询，根据描述符的状态进行处理，只是 poll 没有最大文件描述符数量的限制。...其中activeExpireCycle()对每个Expires[*]逐一检测，每次执行时间为250ms/server.hz 对某个Expires[*]检测时，随机挑选几个key检测规则如下：如果key...volatile-random：任意选择数据淘汰 volatile-ttl：挑选即将过期的数据淘汰问：有遇到redis大key的问题吗？

6312 0

动规解决01背包完全背包精讲

用动态规划解决问题有下面的标准步骤： 1、状态表示： dp[i][j] 表示从前i个物品中挑选，总体积不超过j，所有选法中能挑选出的最大价值。有同学会问，状态表示为什么是这样的呢？...只需要考虑行的初始化。在第0行，表示在前0个物品中，总体积为j所表示的总价值，不存在，所以可以直接初始化为0。 4、填表顺序根据状态转移方程可知，由上到下，由左到右。...但是后面的值就不存在，在前0个物品中，挑选出体积正好为1、2、3……这些情况都不存在，所以赋值为-1 4、填表顺序从上往下 5、返回值 dp[n][V] 空间优化： 1、利用滚动数组在空间上的优化我们可以直接用一维...2、状态转移方程 01背包和完全背包的本质区别就是能选择数量不一样，01背包数量只有1个，而完全背包可选择物品数量有无限多个。因此状态转移方程根据可选择物品数量分为很多种。...3、初始化只需要初始化第一行初始化为0即可 4、填表顺序根据状态转移方程，从上往下填写每一行，每一行从左往右 5、返回值 dp[n][V] 我们继续解决第二问，背包必须装满的情况下。

1091 0

R练习50题 - 第二期

每天涨幅超过5%、跌幅超过5%的股票各有多少？我们已经把所有50题的答案都上传到了我们的Github主页，但是校对及代码解析只写到了第十题。...习题 3 每天每个交易所上涨、下跌的股票各有多少？分析：这题和Ex-2非常类似，唯一的不同就是分组变量多了一个：对于每个交易日，我们不仅需要根据涨跌updown分组，还要根据交易所分组。...练习 4 沪深300成分股中，每天上涨、下跌的股票各有多少？分析：本题仍旧是Ex-2的拓展，只不过要求我们进行行选择操作。在data.table的dt[i,j,by]语法中，i代表行选择操作。...data.table只会选择为True的那些元素。在data.table的dt[i, j, by]语法中，先执行行选择操作i, 再执行分组操作by, 最后执行列操作j。...注意以上运算的结果是一个取值为True或False的向量，data.table最终会挑选出为True的那些行。我们仍旧使用ifelse函数生成updown这个变量。

8822 0

滚动回归中调用多核CPU

问题提出前几期的大猫课堂中大猫教了大家“10行代码搞定滚动回归”，在那一期的最后大猫说文章中给出的是目前大猫看到的最快的实现方法，“如果有发现更快方法的小伙伴一定要联系大猫”，emmmm……现在看来大猫不得不自己寻找更快的方法了...问题分析原先的程序其实是非常memory efficient的，内存占用不多，关键问题是提高CPU的使用率，最直接的办法就是充分发挥多核CPU的性能。...众所周知，绝大多数数据清洗任务都只能单线程运行，不论是R的data.table包还是SAS的data步都是如此，唯一存在提高空间的就是多次重复的回归拟合进行并行计算。...# 设置随机数种子 set.seed(42) # 生成样例数据集，一共有a,b,c,d,e五个group，每个group都有1000日的观测，共5000行观测 dt <- data.table(id =...载入并设置doParalle 为了能够调用多核，我们需要首先根据CPU的核心数来进行设置，下面是大猫在自己4核8线程CPU上的设置代码。

1.5K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...2、按条件行筛选从前用subset的方式进行筛选比较多， new=14,select=a:f) （1）单变量现在data.table与dplyr from_dplyr =...—————————————————————————————————————————————— 六、额外的参数（来源：R语言data.table速查手册） 1、mult参数 mult参数是用来控制i匹配到的哪一行的返回结果默认情况下会返回该分组的所有元素...，他包含了各个分组，除了by中的变量的所有元素。....在data.table行操作跟data.frame很像，可以data[1,]就可以获得第一行的数据，同时也可以用，data[1]来获得行信息，这个是data.table特有的。

8.6K4 3

懒癌必备-dplyr和data.table让你的数据分析事半功倍

条数据 sample_frac(df,0.7) 随机抽取70%的数据看了以上这几个函数，是不是觉得dplyr包超简单！...data.table包 dplyr已经可以满足我们数据分析工作中大部分的需求，后来该包的作者又开发了一个炫酷吊炸天的包“data.table” 如果你的日常处理数据在几万到十几万行，那么用dplyr...如果你的日常处理数据量非常大，有上亿行的数据处理需求，这个时候你完全可以放心大胆的使用data.table 这个包异常的高效，速度非常的快！！...使用i DT[3：5] #选取3到5行的数据 class(DT) [1] "data.table" "data.frame" DT[v1=="A"] #基于条件的选择 DT[v1 %in% c("A",...data.table把我们刚刚用group_by和summarise组合才能实现的功能，直接在一句代码里面就实现了，而且代码的可读性和可扩展运用性非常强！

2.4K7 0

10行代码搞定【滚动回归】

如果数据一共有N天，那么就会得到N - n个数据点这就是滚动回归，一个非常容易理解而且在研究中常常遇见，然而实现起来却不是那么容易的问题。在今天的大猫课堂中，大猫教大家用10行代码搞定它！...问题引入假设我们现在有N天的数据，我们希望对于每一天t，用n作为窗口期，在[t - n, t]的窗口中进行数据回归。显然，最终的数据会有N-n天。...构造样例数据集代码如下： # 设置随机数种子 set.seed(42) # 生成样例数据集，一共有a,b,c,d,e五个group，每个group都有1000日的观测 dt <- data.table(...，需要用到data.table包！...但是，这个滚动回归的代码也不是完美的，最大的劣势就在于我们的滚动窗口是用“期”而不是用“天”来定义的，也就是说，程序在每次滚动的时候都会固定找前面n期的观测，而不管这n期之间可能间隔的是10天，20天还是一个月

2.2K2 0

3种缺失值情况需要区别对待

如果你的表达矩阵里面的基因数量超级过，部分基因缺失问题可以把整个基因都删除，但是如果基因缺失比例很大，这个时候强行删除就会带来偏差啦！...首先需要去上游（数据如何产生的）弄清楚缺失值的来源，然后要理解不同形式的缺失值，如下：完全随机缺失（MCAR，Missing Completely At Random），指的是数据的缺失不依赖于自身或者其他变量...随机缺失（MAR，Missing At Random），指的是数据的缺失不是完全随机的，该类数据的缺失依赖于其他观测变量。...最常用的是用impute包的imput.knn函数比如甲基化数据分析教程，一个甲基化芯片信号值矩阵差异分析的标准代码，是就使用了它： require(GEOquery) require(Biobase...= 0.8，意思是该列缺失值超过80%就报错所以对我们的表达矩阵来说，一定要是列是样本，行是基因哦！

1.1K2 1

【进阶】Next N rows when condition is TRUE

问题引入本期的问题来自于stackoverflow.com，由于大猫实在想不出简洁的翻译，想来想去还是原标题最能描述问题，所以干脆直接借用。...例如，在以上数据集第4行的condition是1，那么我们能够标记出第5行以及第6行。又由于第6行的分组从a变成了b，所以只有第5行被标记了出来。...# a是分组变量； dt <- data.table(a = rep(c("a", "b", "c"), each = 5)) # condition是条件；desireOutcome是希望获得的结果...dt[, condition := as.numeric(.I %% 4 == 0)] 本文需要用到data.table包！...于是很自然的，如果我们能将这三个向量相加，那么所有符合要求的行就都是1，不符合的就都是0了。关键问题在于如果给我们一个list，使用什么方法能够把list的每个元素“一一对应”地加总呢？

5531 0

文章复现—bulkRNA转录组结合机器学习等进行相关疾病研究01—多数据集去除批次效应后联合分析以及火山图标准绘制

2 数据收集与预处理文章挑选了三个GSE38713 , GSE87473 , GSE92415，基于芯片的数据集，联合起来分析，共298个实验组，55个对照组，数据集的芯片平台并不相同，我们要先单独处理每个数据集后...，拿到相应的表达矩阵（行名基因名，列名样本名）和分组信息后，才能根据基因名取交集，cbind后再去除批次效应。...##通过查看说明书知道取对象a里的临床信息用pDatapd=pData(a) ##挑选一些感兴趣的临床表型。...##通过查看说明书知道取对象a里的临床信息用pDatapd=pData(a) ##挑选一些感兴趣的临床表型。...3.2 火山图可视化这里力求和原图一模一样的效果，所以这里调试了许久。特别是用EnhancedVolcano的包，想让上调和下调基因显示不同的颜色还挺困难的。

971 0

从一件数据清洗的小事说起

问题：从一段json清晰代码说起笔者某一日在R语言中文社区某一群里面发现了水友提出的一个问题，处理一个比较奇葩的数据清洗问题，先来看数据结构： ?...，就琢磨了一下，于是也用data.table写了一段代码： library(data.table) library(jsonlite) library(stringr) flat.json <- json...然而大佬毕竟是大佬，用科学的态度做了实验并给出了结论： ?...相较之下，data.table则通过把数据处理中最常见的“选取行”、“修改列”、“分组”三大操作通过dt[i,j,by]的语法统一了一起来。...关于如何学习data.table包，大家可以查看本公众号前几期的文章。R语言的data.table包是一个被大多数人远远低估的存在，在这里想强烈推荐给大家！！

6851 0

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！...counts与TPM矩阵: 用tximport包读取quant.sf构建counts与TPM矩阵；样品的重命名和分组；初步过滤低表达基因与保存counts数据承接上节RNA-seq入门实战（二）：上游数据的比对计数...在这里展示筛选出至少在重复样本数量内的表达量counts大于1的行（基因），可以看到超过一半以上的基因都被筛掉了。...筛选出至少在重复样本数量内的表达量counts大于1的行（基因） keep_feature 1) >= 2 table(keep_feature) #查看筛选情况，...其他步骤与操作featureCounts输出文件类似。

18.5K4 5

院士课题组的WGCNA数据挖掘文章能复现吗

挑选TCGA数据库里面的 [GDC TCGA Bile Duct Cancer (CHOL)](https://xenabrowser.net/datapages/?...cohort=GDC TCGA Bile Duct Cancer (CHOL)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443) 数据集，然后根据里面的样品的二分类属性...（肿瘤样品和正常组织对照）做一个简单的差异分析，然后基于差异分析后的基因列表进行go和kegg的数据库注释，以及使用WGCNA算法构建网络，然后挑选合适的网络看里面的hub基因而已。...cohort=GDC TCGA Bile Duct Cancer (CHOL)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443) 数据集，然后根据里面的样品的二分类属性...GAPDH在这里居然也是很明显的差异基因，在肿瘤里面上调了： image-20230828201428942 差异分析的结果也可以看到，上下调基因数量实在是太多了：上下调基因数量实在是太多了

3102 0

用data.table语句批量处理变量

问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...首先，变量的数量实在太多，如果输这34个变量名尚且能接受的话，那万一要是有100个变量呢，“输”了你赢了世界又如何；再者，未经过清洗和结构化的变量名存在着太多难以预计的问题，我们来看代码中这个示例的变量名...批量处理法：用lapply批量处理变量在此时lapply的妙用就显现出来了，在R中lapply用来对list中每一个element进行相同处理，如何把它运用到data.table，话不多说先上代码：...我们知道在data.table包中，.SD是经过i和by处理之后剩下的那部分数据集，它的格式是一个data.table，同时它是一个list。...为了更加深入认识这个问题，我们下边再写一段代码，用.SD方法输出的colnames： DT[, colnames(.SD)] 输出结果如下： ?

1.2K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭