开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

R: dplyr仅在按多个列分组时才提供奇怪的数据结构

dplyr是一个在R语言中用于数据处理和操作的包。它提供了一组简洁且一致的函数，可以帮助我们对数据进行筛选、排序、汇总、变换等操作。

在dplyr中，当我们按多个列进行分组时，会出现一种奇怪的数据结构，即返回一个嵌套的数据框。这种数据结构可以通过使用group_by()函数来创建。

具体来说，dplyr中的group_by()函数用于按照指定的列进行分组操作。当我们按多个列进行分组时，group_by()函数会返回一个嵌套的数据框，其中每个组都是一个子数据框。这种嵌套的数据结构可以方便地进行后续的数据处理和分析。

例如，假设我们有一个包含姓名、性别和年龄的数据框，我们想要按照性别和年龄进行分组。可以使用以下代码来实现：

library(dplyr)

# 创建示例数据框
df <- data.frame(
  name = c("Alice", "Bob", "Charlie", "Alice", "Bob", "Charlie"),
  gender = c("Female", "Male", "Male", "Female", "Male", "Female"),
  age = c(25, 30, 35, 25, 30, 35)
)

# 按照性别和年龄进行分组
grouped_df <- df %>% group_by(gender, age)

# 查看分组后的数据结构
str(grouped_df)

运行以上代码后，我们会得到一个嵌套的数据框，其中每个组都是一个子数据框。可以使用str()函数查看分组后的数据结构。

dplyr的这种奇怪的数据结构在某些情况下可能会给我们带来一些不便，但它也提供了更灵活和强大的数据处理能力。我们可以通过使用dplyr提供的其他函数，如summarize()、mutate()、filter()等，对分组后的数据进行进一步的操作和分析。

腾讯云提供了一系列与云计算相关的产品，其中包括云服务器、云数据库、云存储等。这些产品可以帮助用户在云端进行计算、存储和数据处理等操作。具体的产品介绍和相关链接可以在腾讯云官方网站上找到。

相关搜索:如何在按R中的另一列分组后仅删除一列中的异常值仅当表存在且仅当列不存在时，才向多个数据库中的表添加列仅当字符串位于R中字符串的开头时，才从多个列中删除该字符串如何在按R中的另一个变量分组时将行值转换为列 dplyr仅当同一列的组中存在另一个值时，才对值进行过滤 pandas:仅当另一列中的值匹配时才计算行之间的重叠单词(多个实例的问题)html的导航栏 html的单选框 html的超链接 html的var

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...3.aggregate函数对分组字段的顺序有一个奇怪的要求：必须反向排列。...可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...tapply 只对单字段分组适用，在进行双字段联合分组时其结果为二维矩阵，用户还需要进行复杂的处理才行，比如 tapply(orders$AMOUNT, orders[,c("SELLERID","CLIENT...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。

20.7K3 2

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...（贼笑中） dplyr包 R语言中最为重要的包（之一）！它可以让数据分析功能更加强大，代码更加简洁。你可以随心所欲的操作它，使用它获取你想要的数据，而且它的语法非常简单，非常直白。...dplyr很庆幸，都提供了关于常用方法的一些函数。...作为课代表的我来帮大家简单的总结一下：我们都知道R有个令人诟病的缺点就是跑起来耗内存，data.table相对于dplyr 更快、更节省内存了！..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢

2.4K7 0

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,....以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑，其实是在按照carrier,origin,dest三个维度分组的基础上，对每个子块特定列进行均值运算。

3.6K8 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

网络上充斥的是data.table很好，很棒，性能棒之类的，但是从我实际使用来看，就得泼个水，网上博客都是拿一些简单的案例数据，但是实际数据结构很复杂的情况下，批量操作对于data.table编码来说，...R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

8.4K4 3

生信代码：数据处理（ tidyverse包）

大家在学习R语言的时候，大多参考《R语言实战》这本书，但这本书年代过于久远（中文第二版是2016年），主要着力点也是在R base上，R语言可视化的ggplot2包也只是简要介绍，而对于tidyverse...包，《R语言实战》并未涉及，这也导致R语言的学习难度增加，今天我们给大家引入tidyverse包的学习。...tidyverse 包是 Hadley Wickham 及团队的集大成之作，是专为数据科学而开发的一系列包的合集，基于整洁数据，提供了一致的底层设计、语法、数据结构，包括数据导入，数据规整，数据处理，...dplyr包下主要是以下几个操作: select()——选择列 filter/slice()——筛选行 arrange()——对行进行排序 mutate()——修改列/创建列 summarize(...，如果后续要使用到，需要保存下来 5 arrange() R base包中涉及到排序的包括 sort()，rank()，order()，而在dplyr包中与排序相关的是arrange()包，默认是从高到低进行排序

2K1 0

两个神奇的R包介绍，外加实用小抄

这是一种组织表格数据的方式，提供了一种能够跨包使用的统一的数据格式。有多统一？每个变量（variable）占一列，每个情况（case，姑且这么翻译）和观测值（observation）占一行。...expand（列出每列值所有可能的组合，天哪我是写到这里的时候刚看懂的！）来看示例 ? ? 我是看到了结果才知道我干了啥的喂。就是选中的列中的值各种组合，成为一个新表。...（我想给自己打个优秀） 4.split cells 把一列拆成两列。目测要有分隔符才行啊好像。 ? separate：按列分割 sparate_rows：按行分割 ?...二、Dplyr能实现的小动作 1.arrange 排序按某一/两列值的大小，按照升/降对行排序。...rbind，一个是dplyr里的bind_rows 按行拼接时，列数、列名需要一致 rbind(frame1,frame4)# frame1 %>%bind_rows(frame4) 8.交集、并集、全集

2.5K4 0

GEO数据挖掘-基于芯片

timeout选项控制的是当R进行网络操作（如下载文件或访问网络资源）时等待响应的最长时间（以秒为单位）。...ExpressionSet对象整合了表达矩阵、样本信息和特征信息，提供了一个一致的数据结构，使得后续的数据分析和可视化更加方便和一致。...S4类和槽（Slot）:S4类是R中一种更严格和复杂的类定义方式，适用于需要更严格数据结构的情况。S4类对象包含一个或多个槽，每个槽存储特定类型的数据。...在差异基因表达分析中，设计矩阵是一个非常重要的步骤。设计矩阵描述了实验设计和样本分组信息，为后续的线性模型拟合提供基础。注：因子变量 GroupGroup 是一个因子变量，表示实验分组。...ids：要处理的数据框。symbol：指定根据哪一列进行去重（这里是 symbol 列）。.keep_all = TRUE：表示在去重时，保留所有列的数据。

1601 0

dplyr-cli：在Linux Terminal上直接执行dplyr

熟悉R的朋友都会知道， dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。...csv 不执行dplyr命令，仅将输入数据作为CSV输出到stdout kable不执行dplyr命令，而仅将输入数据作为 knitr::kable()格式字符串输出到stdout 其工作原理：dplyr-cli...littler命令行前端由“ r”（又称“轻量”）提供，作为围绕GNU R语言和统计计算和图形环境的轻量级二进制包装器。...换句话说，该工具提供了无环境的R语言。另外一个很友善的功能是， dplyr-cli使用终端管道 |运行命令。.../dplyr select --file mtcars.csv -c cyl | head -n 6 实例二:多个数据处理的参数的结合创建名为 cyl2的新一列，它的值为 cyl的两倍，再提取 cyl

2K1 0

使用R或者Python编程语言完成Excel的基础操作

掌握这些技能可以显著提升使用Excel的能力。在R编程语言中处理表格数据通常依赖于dplyr和tidyr这样的包，它们提供了强大的数据操作功能。...通过dplyr和tidyr包，我们可以轻松地对数据进行复杂的操作。在R语言中，即使不使用dplyr和tidyr这样的现代包，也可以使用基础包中的函数来完成数据操作。...在Python编程语言中处理表格数据通常使用Pandas库，它提供了非常强大的数据结构和数据分析工具。以下是如何在Python中使用Pandas完成类似于R语言中的操作，以及一个实战案例。...、类型转换、增加列、分组求和、排序和查看结果。...Pandas提供了类似于R语言中的数据操作功能，使得数据处理变得非常直观和方便。在Python中，处理表格数据的基础包是Pandas，但它本身已经是一个非常强大的库，提供了许多高级功能。

1991 0

R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

dplyr 包的 distinct() 函数可以对数据框指定若干变量，然后筛选出所有不同值，每组不同值仅保留一行。...2.6 arrange 按照数据框里的某列或某几列，对所有行进行排序。可以使用 desc 产生倒序，或写入多个列使其按照多个列进行排序。...对于即将合并的新列，需要使用引号；但对于想要合并的多个列名，可以不用使用引号。sep 参数设定多列合并后不同数据分隔使用的分割符。...R 数据整理（六：根据分类新增列的种种方法 1.0）其他函数 slice dplyr 包的函数 slice(.data, ...) 可以用来选择指定序号的行子集，正的序号表示保留，负的序号表示排除。...summarize(test, mean(Sepal.Length), sd(Sepal.Length)) 在有多个变量需要汇总时，summarise 的格式就会比较罗嗦。

10.8K3 0

数据处理|R-dplyr

dplyr包实现数据的清洗处理，包括数据整合、关联、排序、筛选、汇总、分组等。...Width) #计算一个或多个新列并删除原列 6）数据汇总 summarize()函数实现数据集聚合操作，将多个值汇总成一个值 summarise(iris,avg = mean(Sepal.Length...Q：按品种分组，分别计算花萼宽度的均方差 summarise(group_by(iris,Species),sd=sd(Petal.Width)) 8）连接操作符 dplyr包里还新引进了一个操作符,%...sample_n(mtcars, 50, replace = TRUE) #随机有重复的取50行数 10）数据联结 dplyr包也提供了数据集的连接操作，如左连接、右连接、内连接等： inner_join...(x,y,by = NULL) #内连接，合并数据仅保留匹配的记录 by设置两个数据集用于匹配的字段名，默认使用全部同名字段进行匹配，如果两个数据集需要匹配的字段名不同，可以直接用等号指定匹配的字段名

2K1 0

「R」dplyr 列式计算

❝在近期使用「dplyr」进行多列选择性操作，如 mutate_at() 时，发现文档提示一系列的「dplyr」函数变体已经过期，看来后续要退休了，使用 across() 是它们的统一替代品，所以最近抽时间针对性的学习和翻译下...原文来自 [dplyr 文档](Column-wise operations • dplyr (tidyverse.org "dplyr 文档")) - 2021-01❞ 同时对数据框的多列执行相同的函数操作经常有用..._if, _at, _all 「dplyr」以前的版本允许以不同的方式将函数应用到多个列：使用带有_if、_at和_all后缀的函数。这些功能解决了迫切的需求而被许多人使用，但现在被取代了。..._at() 函数是「dplyr」中唯一你需要手动引用变量名的地方，这让它们比较奇怪且难以记忆。为什么过了这么久才发现 across()？...这是由 base R 提供的，但它并没有很好的文档，我们花了一段时间才发现它是有用的，而不仅仅是理论上的好奇。我们可以使用数据框让汇总函数返回多列。

2.4K1 0

R数据科学-1（dplyr）

R数据科学（dplyr）如今数据分析如火如荼，R与Python大行其道。你还在用Excel整理数据么，你还在用spss整理数据么。...image.png image.png 1.数据框格式（DataFrame）一般，我们的excel包括行（col）与列（row），在R语言中，经常对excel操作的对象称之为Dataframe，那么在进行数据查看时候...，R语言可以看到数据结构。...只不过 %>%看起来更简单，将mtcars赋予新的tibble。 df以后的输出，很简洁，能看到32*11的数据行与列，也能看到各列的属性。...new=mpg*cyl) df %>% dplyr::filter(am==1) df %>% dplyr::filter(am==1 & gear==4) 5.数据分组计算有时候，需要分组计算均值标准差

1.6K2 0

R语言 | 第一部分：数据预处理

nr是nrow的简写，nc是ncol的简写，R能识别 #数组 mydata <- array(1:12,c(2,3,2),dimnames=list(c("r1","r2"),c("c1","c2","...= c("Male", "Man" , "Lady", "Female"),labels = c("Male", "Male", "Female", "Female")) #数据列表：可用于合并多个不同类型数据字段...【进阶】数据库相关dplyr install.packages("dplyr") library(dplyr)】 dplyr包最常使用的函数主要包括以下几个：变量筛选函数：select 数据筛选函数...：filter 排序函数：arrange 变形函数：mutate 汇总函数：summarize 分组函数：group_by 管道连接符：%>% 随机抽样函数：sample_n, sample_frac...——数据结构 & 数据框基本操作) https://blog.csdn.net/u011596455/article/details/79608475(R语言-数据预处理（二）)

9392 0

R tips：使用!!来增加dplyr的可操作性

dplyr包在数据变换方面非常的好用，它有很多易用性的体现：比如书写数据内的变量名时不需要引号包裹，也不需要绝对引用，而这在多数baseR函数中都不是这样的，比如： library(tidyverse)...的这种易用性是有代价的，假如想要对分析工作稍微增加一些编程属性时，就会发现dplyr的异常情况，比如将分组变量赋值给一个变量，使用变量来进行分组： ### 分组变量group_var无法完成工作 group_var...辅助dplyr完成编程工作上面的例子中，之所以group_var不起作用，是因为dplyr直接将group_var当做变量名，然后去mtcars中寻找名字叫做group_var的列，这肯定是会报错的。...sym是指的将group_var变为Symbol，这是由于上面code的所有操作层面都是上面提到的R代码运行阶段中的语句阶段，对于变量而言，其需要变为Symbol才可以操作。...，首先map逐一将分组变量group_v的元素传递给mean_manual函数，传入mean_manual时，先使用!!

2.4K3 1

快速掌握R语言中类SQL数据库操作技巧

在数据分析中，往往会遇到各种复杂的数据处理操作：分组、排序、过滤、转置、填充、移动、合并、分裂、去重、找重、填充等操作。这时候R语言就是一个很好的选择：R可以高效地、优雅地解决数据处理操作。...（本章节为R语言入门第二部分总结篇：数据操作）本章内容布局思路：思来想后，想到SQL查询的查询思路可以作为本章节的布局思路 1.了解表结构/数据结构 2.对表中的一些数据做出修改、替换、甚至生成新字段...可参考↓↓ R语言 | 第一部分：数据预处理 7.数据筛选和8.抽样 R语言数据管理与dplyr、tidyr | 第4讲 5 dplyr中5.1筛选filter和5.3选择select R...此处仅讲述aggregate数据分组计算内容，更多分组计算内容参考→《R语言分组计算，不止group_by》 dplyr包中的group_by联合summarize group_by和summarise...=5) 8 数据分裂分裂计算，是把一个向量按照一列规则，拆分成多个向量的操作。

5.7K2 0

R语言数据清洗实战——高效list解析方案

好在确实有开发者在针对list数据结构进行操作上的优化，任坤老师的大作——rlist就是一个强大的list解析神器，它可以让我们像在dplyr、data.table操作data.frame一样，使用rlist...任坤老师的主页提供了很好地rlist实践方案，同时该包配套有非常详细的document，是你数据清洗工具箱中不可多得的list操纵神奇，配合tidyverse工具箱，你的数据warpping技能一定会得到大大扩展与提升...2、地理信息数据源：无论是基于s3标准的sp空间数据结构，还是基于s4标准的sf空间数据结构，都容纳着大量的list对象。...虽然索引函数能够达到的目的与list.map类似，但是两者设计的初衷是不一样的，list.select可以完全类比dplyr中的select函数。...可以看到，当使用年份进行分组时，相当于又给mydata做了一次父级标签分类（类别即为我们选定的分组变量——年份）。

2.5K4 0

生信入门马拉松之R语言基础-脚本项目管理、条件循环、表达矩阵和一丢丢数据挖掘(Day 7)

R语言基础学习笔记-Day71. 复习R包stringr字符串操作的几个函数-长度、拆分、提取、字符检测、替换和删除。...Rdata可以保存多个变量，下次使用只需要一次load可以的到多个数据。-Rdata不仅可以保存数据框，也可以保存其他任何数据结构，包括复杂的对象！...yes：逻辑值T时返回的值no，逻辑值F时返回的值ifelse函数和str_detect()函数连用，王炸炸炸！！！...加载test1.Rdata，将两个数据框按照probe_id列连接在一起，按共同列取交集load("test1.Rdata")library(dplyr)merge1 <- merge(dat,ids,...7.5.3 箱线图的应用单个基因在两组之间表达量的差异可视化。分组信息：是一个有重复值的离散型的向量，分组向量的元素和表达矩阵的列是一一对应的。

1620 0

学习小组Day6——学习R包

学习小组Day6——学习R包图片学习R包安装加载R包1.镜像的设置解决R包在国外，下载慢的问题1.初级模式：在Rstuidio程序中设置 Tools-Packages-Primary CRAN repositorry...基础函数1.arrange()排序2.mutate()新增列或修改列3.slect()、filter()筛选列、行4.优秀的管道符%>%（传递）5.summarise()汇总，一般与group_by()...分组连用表格的连接（dplyr包）1.inner_join：交集2.左连left_join和右连接right_join左连接：左边有的保留，没有的去除右连接：右边表格有的保留，没有的去除3.全连接full_join...左右表格内有的都保留4.semi_join半连接以右边的表格为参照，左边表格有的就保留5.anti_join反连接去除右边表格有的，仅保留左表格独有的行6.简单合并：bind_rows()和bind_cols...()1.相当于rbind(),cbind()，按行合并、按列合并2.按行合并要求两表格有相同的列；按列合并要求两表格有相同的行

2652 0

「R」dplyr 行式计算

「原文来自：dplyr 文档」上一篇：「R」dplyr 列式计算通常 dplyr 和 R 更适合对列进行操作，而对行操作则显得更麻烦。...It doesn’t have to be you. — Jenny Bryan❞ 载入包 library(dplyr, warn.conflicts = FALSE) 创建行式操作需要一个特殊的分组类型...按行汇总统计 dplyr::summarise() 让一列多行的统计汇总变得非常简单，当它与 rowwise() 结合时，它也可以简便地操作汇总一行多列。...，我们县创建一个行式数据框： rf % rowwise(id) 我们然后使用 mutate() 添加一个新的列，或者使用 summarise() 仅返回一个汇总列： rf %>% mutate...mutate() 将列切分然后传入 length(y) 的时候，分组 mutate 使用 [ 操作，而行式 mutate 使用 [[。

6.2K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭