开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在data.table中聚合组并排除行本身？

在data.table中，可以使用by参数来指定聚合的组，并使用-操作符来排除行本身。具体步骤如下：

首先，使用by参数指定要聚合的列，将数据按照这些列进行分组。例如，如果要按照列A和列B进行聚合，可以使用by = .(A, B)。
接下来，使用-操作符来排除行本身。在data.table中，可以使用.SD来表示每个分组的数据。通过在.SD前加上-操作符，可以排除行本身。例如，如果要排除行本身，可以使用- .SD。
最后，使用聚合函数（例如sum()、mean()等）对排除行本身后的数据进行聚合操作。可以使用j参数来指定聚合操作。例如，如果要对列C进行求和，可以使用j = sum(C)。

下面是一个示例代码：

library(data.table)

# 创建一个示例数据表
dt <- data.table(A = c("A", "A", "B", "B", "C"),
                 B = c(1, 2, 1, 2, 1),
                 C = c(10, 20, 30, 40, 50))

# 使用by参数指定聚合的列，并排除行本身
result <- dt[, - .SD, by = .(A, B)][, sum(C), by = .(A, B)]

# 输出结果
print(result)

这段代码将按照列A和列B进行分组，并排除行本身。然后，对排除行本身后的数据进行求和操作。最后，输出聚合结果。

在腾讯云的产品中，可以使用TencentDB for MySQL来存储和管理数据。TencentDB for MySQL是一种高性能、可扩展的云数据库服务，适用于各种规模的应用程序。您可以通过以下链接了解更多关于TencentDB for MySQL的信息：TencentDB for MySQL

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

能不能让R按行处理数据？

现在我想做的是对于每一行，找出非NA的值，填充到“mean.scale”这个新的变量；如果有多个非NA，那么就计算其平均值。也就是说，我希望最终得到如下数据集： ?...事实上，data.table也整合了reshape中的cast和melt函数，并且将cast函数升级为dcast，感兴趣的小伙伴可以去研究一番。在拉直数据后，接下来要做的工作就很简单了。...is.finite()将其排除。代码如下： ▶ t3 <- t2[, ....事实上，大猫把整个过程分解成了好几步，如果对于data.table包比较熟悉，完全可以在一行之内搞定所有事情，根本不需要把进行数据集的拆分、合并： ▶ t.final <- t1[, ":="(mean.scale...本期总结本期大猫带领大家学习了如<em>何在</em>R<em>中</em>按照行进行处理。R的数据处理哲学是向量，是列，但这并不妨碍我们按照行进行处理，其中的关键，就在于运用 c() 函数把不同的向量拼接成一个向量。

1.4K2 0

【工具】深入对比数据科学工具箱：Python和R之争

应用R的场景统计分析: 尽管 Python 里 Scipy、Pandas、statsmodels 提供了一系列统计工具，R 本身是专门为统计分析应用建立的，所以拥有更多此类工具。...data.T t(data) 矩阵变形 data.reshape(1,np.prod(data.shape)) matrix(data,ncol=nrow(data)*ncol(data)) 矩阵按行拼接...绘制聚类效果图这里以K-means为例，为了方便聚类，我们将非数值型或者有确实数据的列排除在外。...下面是R中的 data.table、dplyr 与 Python 中的 pandas 的数据操作性能对比： ?...我曾经用data.table和pandas分别读取过一个600万行的IOT数据，反复10次，data.table以平均10s的成绩胜过了pandas平均15s的成绩，所以在IO上我倾向于选择使用data.table

1.4K4 0

aPEAR优雅绘制富集分析网络图

ref_type=heads ❞ 加载R包 install.packages("aPEAR") library(data.table) library(tidyverse) library(clusterProfiler...，这里使用enrich@result作为输入数据 enrichmentNetwork(enrich@result) 提取富集分析结果 # 提取富集分析的结果，并进行数据处理 # 这里首先将结果转换为data.table...格式，然后选取前5行，提取特定的列，并对core_enrichment列的内容进行截断处理 enrichmentData % as.data.table() %...# 找出富集分析结果中的路径聚类 # cluster参数指定了聚类方法，这里使用层次聚类，minClusterSize指定了最小聚类大小 clusters <- findPathClusters(enrich...@result, cluster = 'hier', minClusterSize = 6) # 显示前5个聚类的信息 clusters$clusters[ 1:5 ] # 提取并显示特定聚类的路径

8062 0

说好的内参基因稳定不变呢？它确差异表达了吗？

treated","untreated")) DEG_DESeq2 <- as.data.frame(tmp[order(tmp$padj),]) head(DEG_DESeq2) # 去除差异分析结果中包含...NA值的行 DEG_DESeq2 = na.omit(DEG_DESeq2) DEG_DESeq2['GAPDH',] 可以看到，这个时候它仍然是统计学显著，也就是说pvalue是 0.05以下，但是矫正后...padj就不显著啦，所以它被排除到差异上下调基因之外了哦。...我们肉眼看到的差异其实是转录组测序本身的技术噪音，它一下子对两万多个基因进行定量，肯定是有一些哪怕是本身并不会在两个分组有明显差异表达量的基因也会表现出来差异，但是差异是否在可以接受的范围就需要严格的统计学检验了哦...必须要对你的转录水平的全局表达矩阵做好质量控制，最好是看到标准3张图：左边的热图，说明我们实验的两个分组，normal和npc的很多基因表达量是有明显差异的中间的PCA图，说明我们的normal和npc两个分组非常明显的差异右边的层次聚类也是如此

8783 0

深入对比数据科学工具箱：Python和R之争

应用R的场景统计分析: 尽管 Python 里 Scipy、Pandas、statsmodels 提供了一系列统计工具，R 本身是专门为统计分析应用建立的，所以拥有更多此类工具。...data.T t(data) 矩阵变形 data.reshape(1,np.prod(data.shape)) matrix(data,ncol=nrow(data)*ncol(data)) 矩阵按行拼接...绘制聚类效果图这里以K-means为例，为了方便聚类，我们将非数值型或者有确实数据的列排除在外。...下面是R中的 data.table、dplyr 与 Python 中的 pandas 的数据操作性能对比： image.png 我曾经用data.table和pandas分别读取过一个600万行的IOT...数据，反复10次，data.table以平均10s的成绩胜过了pandas平均15s的成绩，所以在IO上我倾向于选择使用data.table来处理大数据，然后喂给spark和hadoop进行进一步的分布式处理

1K4 0

单细胞分析支持人类前列腺癌研究中腺泡-神经内分泌的转分化的观点

在这些患者中，3例接受了LHRH类似物goerelin联合AR抑制剂比卡鲁胺的一线治疗，2例接受了手术去势联合比卡鲁胺，其余1例最初被诊断为小细胞NEPC并接受化疗药物多西他赛治疗。...第一层次降维聚类分群在排除红细胞和未通过质量控制的细胞后，总共获得了21,292个高质量细胞，每个细胞平均检测到2884个基因。...使用基于图形的无监督聚类策略，根据典型标记将不同的细胞群分类为八种主要的细胞类型，包括上皮细胞、免疫细胞(T细胞、B细胞、髓系细胞和肥大细胞)、基质细胞(成纤维细胞和肌成纤维细胞)和内皮细胞通过评估12...在这三名患者中检测到的NE High细胞群都属于上皮细胞，而不是非上皮细胞间隔，支持NED的上皮性起源。...通过UMAP降维分析12,861个上皮细胞，来可视化细胞间的相似性瘤内分析确定不同程度的局灶性NED 结合热图分析发现，每个肿瘤的上皮细胞重新聚集显示，每个样本的上皮细胞亚群高度表达腔细胞标记，如KRT8

2321 0

转录组测序结果分析

保留ensemblid ，行名转换# 删除ERCC开头的行k = !..." data.table = F)# 保留ensembl id ，行名转换exp = as.matrix(dat[,4:9])rownames(exp) = dat[,1]library(tinyarray...)library(SummarizedExperiment)projs % str_subset("TCGA")projs2.下载并整理表达矩阵方法一...log2FoldChange是DESeq2中的列名，logFC是limma中的列名。...分组和聚类是两件独立的事情，聚类以样本为单位，而不是以分组为单位，每个样本属于那个分组的信息是已知的。

1612 0

单细胞测序—不同格式的单细胞测序数据读写(多样本)

do.call(rbind, lapply(sceList, dim))lapply(sceList, dim)：lapply 函数遍历 sceList中的每个Seurat对象，并对每个对象应用 dim...：do.call 函数将 lapply 返回的结果（每个对象的维度）按行绑定（rbind），生成一个矩阵，矩阵的每一行对应一个样本的数据维度。这个矩阵便于查看每个样本的基因数和细胞数。...scale.data: 经过缩放处理的数据，用于下游分析（如PCA、聚类等）。这些数据层在Seurat对象的assay中存储，通常命名为 "RNA"。...换句话说，JoinLayers 会对所有数据层进行检查，并确保它们的维度（基因数和细胞数）一致。如果有任何层在之前的操作中缺失了某些基因或细胞，JoinLayers 会根据现有的层来补全。...1.3 补充：GEO下载数据整理脚本如在GEO下载测序数据时候，我们需要进行初步的数据整理，即将每个样本的三个数据文件（barcode\features\matrix）整理在各自的文件夹中，并规范命名。

2561 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...="id",行名保存在"id"行中。...比如此例取出DT 中 X 列为"a"的行，和"a"进行merge。on参数的第一列必须是DT的第一列 DT[....的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的y求和 DT[, .N, by=x] #用by对DT 用x分组后，取每个分组的总行数...roll 当i中全部行匹配只有某一行不匹配时，填充该行空白，+Inf(或者TRUE)用上一行的值填充，-Inf用下一行的值填充，输入某数字时，表示能够填充的距离，near用最近的行填充 rollends

5.8K2 0

单细胞转录组学分析食管鳞状细胞癌生态系统

食管鳞状细胞癌是一种常见的食管癌类型，主要发生在食管的鳞状细胞中。这种类型的癌症通常与吸烟、饮酒、不良饮食习惯（如过度食用热的、硬的或粗糙的食物）和某些病症（如食管炎、食管裂孔疝等）有关。...从恶性上皮细胞中鉴定出8种常见的表达程序，发现肿瘤微环境中42种细胞类型，包括26种免疫细胞和16种非免疫基质细胞亚型，并分析了肿瘤微环境中癌细胞与其他细胞的相互作用以及不同细胞类型之间的相互作用。...) Sys.time() raw.data <- fread( 'GSE160269_CD45neg_UMIs.txt.gz', data.table =...第一层次降维聚类分群文章在质控后，保留了208,659个细胞的单细胞转录组，其中97,631个CD45−和111,028个CD45+细胞。...在对读取深度和线粒体读取计数进行回归之后，对组合的CD45−和CD45+数据集进行了基于图形的聚类，并使用已建立的标记基因对聚类进行了注释.

4484 0

和面试官聊了半小时的MySQL索引！

下面一起看下常见的查找策略，如下图：由于前面说的两个特点我们首先排除静态查找的算法。...，或者换句话说聚簇索引树在叶子节点上存储某个索引值对应的一行数据。...下图是非聚簇索引(二级索引)的数据组织方式。索引列是 col2 与聚簇索引不同的是非聚簇索引在索引树叶子节点上除了索引值之外只存了主键值。而聚簇索引则存了一行数据。...，并定位到行的主键 3 2.第二步根据主键 3 在从聚簇索引定位包含主键=3的叶子节点并返回全部行数据。...覆盖索引好处 1.避免了对主键索引(聚簇)的二次查询 2.由于不需要回表查询(从表数据文件)所以大大提升了Mysql缓存的负载总之大大提升了读取数据的性能 5.最佳索引使用策略最后再聊聊使用索引过程中的避坑指南

5702 0

图解 MySQL 索引，写得实在太好了！

由于前面说的两个特点我们首先排除静态查找的算法。...可以看出叶子结点除了存储索引值列col1 (3994700)值之外还存储了其他列的值，如列col2 (92813),如果还有别的列的话也会存储，或者换句话说聚簇索引树在叶子节点上存储某个索引值对应的一行数据...假如有一条sql 语句 select * from test where col2=93; 上面这条语句会经历两次从索引树查找过程 1.第一步从非聚簇索引的索引树上找到包含col2=93的叶子节点，并定位到行的主键...3 2.第二步根据主键 3 在从聚簇索引定位包含主键=3的叶子节点并返回全部行数据。...覆盖索引好处 1.避免了对主键索引(聚簇)的二次查询 2.由于不需要回表查询(从表数据文件)所以大大提升了Mysql缓存的负载总之大大提升了读取数据的性能 5.最佳索引使用策略最后在讲讲使用索引过程中的避坑指南

9532 0

如何用R进行中文分词？

2）安装data.table。data.table是当前R中最强大的数据处理包之一，在大猫课堂中，所有的数据处理都要使用到data.table。...# which is equal to: > floor(3.23) %>% sqrt() 4）安装包stringr stringr是R中用于文本处理的常用包，它把许多常见的文本处理函数重新打包，并赋予了规律性的名字...另外，如何在数据集中批量对文本分词？Let's move on! 准备示例数据集为了尽可能通俗易懂，我们的示例数据集中只放三条文本，预览如下： ?...text中的每个元素都应用seg_x函数进行分词，然后把结果拼成一个长字符向量，其元素个数和text一致。...第二行代码中，dt[, text.seg := x.out]的作用是：在数据集dt中新生成一个变量text.seg，其值等于向量x.out。

1.3K1 0

R语言学习笔记之——数据处理神器data.table

data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...data.table行索引 carrier <- unique(mydata$carrier) [1] "AA" "AS" "B6" "DL" "EV" "F9" "FL" "HA" "MQ" "VX"...当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,....数据排序：排序行： setorder(mydata,carrier,-arr_delay) setorder函数作用于mydata本身，运行无输出。

3.6K8 0

如何批量导入搜狗词库？

写在前面最近@黄小绵羊同学给大猫留言，说你当时那篇《如何在分词中导入搜狗字典》怎么太监了呢？第一期只讲了如何导入单个词典，并且承诺在下一期会给出批量导入的方法，但第二期至今遥遥无期。...最后把导入的文件汇总并去除重复的观测后输出，就大功告成啦。一步一步来。...str_c(scel.paths[i], ".txt"), cpp = TRUE)}) %>% invisible() 接着，将所有词库合并成一个词库，并进行去重，这里用到了data.table...# 将所有的txt字典导入并整合成单一的用户词典，这里使用到了data.table包中的rbindlist函数 ---- dict.paths <- list.files(cidian.dir, pattern...其实这个技能在《35行代码搞定事件研究法》中已经涉及，只是一来那几期比较久远，二来那几期内容众多，大家可能把这个知识点忽略了。不过没关系，重要的东西重复三遍，大猫在下期就再讲一遍分组回归哈。

2.9K1 0

如何在Ubuntu 14.04第1部分上查询Prometheus

在本教程之后，您将了解如何根据维度，聚合和转换时间序列选择和过滤时间序列，以及如何在不同指标之间进行算术运算。在后续教程中，我们将基于本教程中的知识来介绍更高级的查询用例。...由于Prometheus可以扩展到数百万个时间序列，因此可以构建非常昂贵的查询（将其视为类似于从SQL数据库中的大表中选择所有行）。...Prometheus支持以下聚合运算符，每个运算符都支持一个by()或without()子句来选择要保留的维度： sum：汇总聚合组中的所有值。 min：选择聚合组中所有值的最小值。...count：计算聚合组中的序列总数。您现在已经学会了如何聚合系列列表以及如何仅保留您关心的维度。第7步 - 执行算术在本节中，我们将学习如何在Prometheus中进行算术运算。...您现在知道如何在时间序列集之间使用算术，以及如何处理不同的维度。结论在本教程中，我们设置了一组演示服务实例，并使用Prometheus对其进行监视。

2.5K0 0

用机器学习来计算工作技能的匹配度

最重要的是，我们没有看到非常多的混合组，这意味着我们没有看到意义相近的词被分配到不同的簇。...簇之间的距离度量与K-Means方法中对独立样本的距离度量是不一样的，实际上如何在集群之间实现这种“联动方法”有几个不同的选择。...这类图最有用之处就是对于那些本身庞大而难以在树状图中直接观察的子类，我们也可以对其再做切割，观察局部图的局部图。...若要衡量两个技能的相似程度，我们只需要找到这两行元素值相等时，最靠近左侧的那一列。这给我们提供了一维额外的特征，在今后的应用产品中，我们可以计算这些距离的加权平均值。...通过例子，在使用这个应用程序中，我们可以找到一些有趣的关系： “风险”，“信用”、“投资”和“金融”共享相同的主题（如主题2、16和18）。这些主题都在PC1和PC2右上角。

1.2K7 0

媲美Pandas？一文入门Python的Datatable操作

如果你是 R 的使用者，可能已经使用过 data.table 包。...在某种程度上，datatable 可以被称为是 Python 中的 data.table。...统计总结在 Pandas 中，总结并计算数据的统计信息是一个非常消耗内存的过程，但这个过程在 datatable 包中是很方便的。...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%timefor i in range(100...在上面的例子中，dt.f 只代表 dt_df。 ▌过滤行在 datatable 中，过滤行的语法与GroupBy的语法非常相似。

7.6K5 0

玮瑜课程

freadgetwdanno=fread("GPL96-57554.txt",sep="\t",header=T,data.table = F)#能在excel中打开的文件都可以用fread函数读取ID_symbol...<- anno[,c("ID","Gene Symbol")] #部分探针对应的基因名有两个（如"DDR1 /// MIR4640" ），将排在后面的去掉symbol <- ID_symbol$`Gene...: 1"s1 <- strsplit(s,split="; ",fixed = T)os.time <- sapply(s1,function(x){x[3]})#此时提取出来的生存时间为字符型向量（如OS...pheatmap")library(pheatmap)pheatmap::pheatmap(exprset.map,#热图的数据 cluster_rows = F,#行聚类...cluster_cols=F,#列聚类，可以看出样本之间的区分度 annotation_col = annotation_col1

2481 0

媲美Pandas？Python的Datatable包怎么用？

如果你是 R 的使用者，可能已经使用过 data.table 包。...在某种程度上，datatable 可以被称为是 Python 中的 data.table。...统计总结在 Pandas 中，总结并计算数据的统计信息是一个非常消耗内存的过程，但这个过程在 datatable 包中是很方便的。...下面来看看如何在 datatable 和 Pandas 中，通过对 grade 分组来得到 funded_amout 列的均值： datatable 分组 %%time for i in range(100...在上面的例子中，dt.f 只代表 dt_df。 ▌过滤行在 datatable 中，过滤行的语法与GroupBy的语法非常相似。

7.2K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭