开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用dplyr计算多变量分组时的变量占比

dplyr是一个在R语言中用于数据处理和数据操作的包。它提供了一组简洁而强大的函数，可以对数据进行筛选、排序、分组、汇总等操作。

在使用dplyr计算多变量分组时的变量占比时，可以使用group_by()和summarize()函数来实现。

首先，使用group_by()函数按照需要进行分组的变量进行分组。然后，使用summarize()函数结合mutate()函数来计算变量占比。

以下是一个示例代码：

library(dplyr)

# 假设有一个数据框df，包含两个变量var1和var2
df <- data.frame(var1 = c("A", "A", "B", "B", "C", "C"),
                 var2 = c("X", "Y", "X", "Y", "X", "Y"))

# 按照var1和var2进行分组，并计算变量占比
result <- df %>%
  group_by(var1, var2) %>%
  summarize(count = n()) %>%
  mutate(percentage = count / sum(count) * 100)

# 输出结果
print(result)

在上述示例代码中，首先使用group_by()函数按照变量var1和var2进行分组。然后使用summarize()函数计算每个组的数量，并使用mutate()函数计算变量占比。最后，将结果打印输出。

这样，我们就可以得到每个组的数量和相应的变量占比。

腾讯云提供了一系列云计算产品，其中与数据处理和分析相关的产品包括腾讯云数据仓库（TencentDB）、腾讯云数据湖（Tencent Cloud Data Lake）、腾讯云数据集成服务（Tencent Cloud Data Integration）等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息。

相关搜索:根据多列因子水平计算多个变量的占比 dplyr:忽略函数输入的分组变量 dplyr基于分组变量的行中位数使用分组变量计算多列中的值计算分组变量的总体sd R:如何按组计算变量占某个值的百分比？根据分组变量计算百分比 R Dplyr:按两个变量分组，并计算外部组的行数使用dplyr进行编程:间接控制分组依据的变量多类别分组变量的条形图按dplyr分组的多个二进制变量的频率/百分比 R dplyr按两个以上的变量分组，并计算每个第一个变量组内的相对百分比使用dplyr对选定变量进行分组的时间序列滞后使用dplyr计算两个向量/变量的运算时传播NA 如何使用dplyr对这些变量进行分组以生成分组的摘要？如何计算不同分组变量的合计？R:多个变量分组时如何比较单个变量的值对变量进行分组的百分比变化在dplyr中使用"contains“创建使用多列的指标变量如何在使用Dplyr::Group_by和Dplyr::Summarise时输出来自不同分组变量的摘要列表

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

分组统计你只想到group_by操作吗？

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。

03

R语言分组计算，不止group_by

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。

05

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

04

GMSB文章七：微生物整合分析

本文通过多元方差分析和典型相关分析研究微生物（species）、细胞因子（cytokine）和短链脂肪酸（SCFA）之间的相关关系。以下是两种分析的定义：

01

35. R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

假设数据以 tibble 格式保存。数据集如果用于统计与绘图，需要满足一定的格式要求，(Wickham, 2014) 称之为整洁数据 (tidy data)，基本要求是每行一个观测，每列一个变量，每个单元格恰好有一个数据值。这些变量应该是真正的属性，而不是同一属性在不同年、月等时间的值分别放到单独的列。

03

从一件数据清洗的小事说起

本期“大猫的R语言公众号”由“村长”供稿。村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。

01

R语言数据处理：飞机航行距离与到达延误时间有什么关系??

数据分析有一半以上的时间会花在对原始数据的整理及变换上，包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。这一点，我想大部分使用EXCEL的童鞋都深有体会，写论文时，这么多的数据进行处理，手动汇总、筛选、变换，工作量实在是太大。而本文介绍的dplyr包简直就是Hadley Wickham （ggplot2包的作者，被称作“一个改变R的人”）大神为我们提供的“数据再加工”神器啊。本文试图通过一个案例，对神奇的dplyr包的一些常用功能做简要介绍

04

「R」dplyr 行式计算

通常 dplyr 和 R 更适合对列进行操作，而对行操作则显得更麻烦。这篇文章，我们将学习围绕rowwise() 创建的 row-wise 数据框的 dplyr 操作方法。

02

【实用派】R语言中的便捷小操作

管道处理管道处理避免了中间变量的生成，从而节省了内存，并且使代码直观易读，很大程度的简化代码。 R语言中，管道运算符为“dplyr”包中的“%>%”，指左边的结果作为参数，传入右边的函数。默认左边的

07

我对洛伦兹曲线与GINI系数的一点看法

数据分析有时需要针对单变量进行数据描述，有时需要针对多变量之间的关系进行数据描述，洛伦兹曲线就是为描述多变量间关系而服务的。洛伦兹曲线即累计频数分布曲线，用于分析社会财富、土地、工资分配是否公平的问题。洛伦兹曲线不单可以表达收入分配，更多的是表达两个分布间的关联，可以理解为一个东西在另一个东西中分配的集中程度。

01

R入门？从Tidyverse学起！

很多人推荐《R语言实战》这本书来入门R，当然，这本书非常不错，我也是通过这本书开始接触的R。这种入门的学习路径属于base R first，学习的流程基本是先了解变量的类型、数据的结构，再深入点就会学到循环与自定义函数。有些类似于先认识编程，再按照数据处理、可视化、统计分析等应用方向开始下一个学习的旅程。

03

🧐 lme4 | 多层线性模型小彩蛋解答

数据描述的是不同部门(department)的老师的收入(salary)情况。具体可见上期。

02

数据处理|R-dplyr

arrange函数按给定的列名进行排序，默认为升序排列，也可以对列名加desc()进行降序排序。

01

dplyr数据处理

filter()函数用于筛选出一个观测子集，第一个参数是数据库框的名称，第二个参数以及随后的参数是用来筛选数据框的表达式。

01

快速掌握R语言中类SQL数据库操作技巧

在数据分析中，往往会遇到各种复杂的数据处理操作：分组、排序、过滤、转置、填充、移动、合并、分裂、去重、找重、填充等操作。这时候R语言就是一个很好的选择：R可以高效地、优雅地解决数据处理操作。（本章节为R语言入门第二部分总结篇：数据操作）

02

R数据科学-1（dplyr）

如今数据分析如火如荼，R与Python大行其道。你还在用Excel整理数据么，你还在用spss整理数据么。

02

「R」数据操作（七）：dplyr 操作变量与汇总

除了选择已存在的列，另一个常见的操作是添加新的列。这就是mutate()函数的工作了。

02

用R处理不平衡的数据

在分类问题当中，数据不平衡是指样本中某一类的样本数远大于其他的类别样本数。相比于多分类问题，样本不平衡的问题在二分类问题中的出现频率更高。举例来说，在银行或者金融的数据中，绝大多数信用卡的状态是正常的，只有少数的信用卡存在盗刷等异常现象。

05

R语言之数值型描述分析

在分析之前，先将数据集 birthwt 中的分类变量 low、race、smoke、ht 和 ui 转换成因子。

02

Matt Dowle 演讲节选（二）

也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。原来大猫使用的是秀米等富文本编辑器，最然可以实现很花哨的效果，但是每次编辑的时间可能都比写作的时间长，而且富文本编辑器对于代码块的支持极弱，语法高亮没有就算了，但是代码块无法水平滚动就不能忍。相比之下，markdown不仅对于代码有着先天的支持，而且只要在第一次设定好css，以后每次编辑的时间几乎为零，直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页，简直美滋滋！

04

scRNA｜ComplexHeatmap自定义单细胞转录组celltype-level 热图可视化

使用之前注释过的sce.anno.RData数据，后台回复 anno 即可获取

03

R海拾遗_再谈非标准评估

上面的例子summary的变量是disp，分组变量是cyl和am，使用三个点这里传递了任意个参数

02

R语言之 dplyr 包

这个包以一种统一的规范更高效地处理数据框。dplyr 包里处理数据框的所有函数的第一个参数都是数据框名。

02

R tips：使用!!来增加dplyr的可操作性

dplyr包在数据变换方面非常的好用，它有很多易用性的体现：比如书写数据内的变量名时不需要引号包裹，也不需要绝对引用，而这在多数baseR函数中都不是这样的，比如：

03

手把手教你R语言方差分析ANOVA

方差分析（ANOVA）是一种统计方法，用于比较两组或多组数据之间的均值差异。在R语言中，实现方差分析主要涉及到以下步骤：

01

R语言安装R包DAY6-Gaozsi

一个新数据框，其中包含键、 x 值和 y 值。我们使用 by 参数告诉 dplyr 哪个变量是键：

01

生信代码：数据处理（ tidyverse包）

大家在学习R语言的时候，大多参考《R语言实战》这本书，但这本书年代过于久远（中文第二版是2016年），主要着力点也是在R base上，R语言可视化的ggplot2包也只是简要介绍，而对于tidyverse包，《R语言实战》并未涉及，这也导致R语言的学习难度增加，今天我们给大家引入tidyverse包的学习。

01

R可视化：不一样的ggplot2箱线图

使用 ggplot2 包画箱线图通常使用 geom_boxplot() 函数。箱线图（Boxplot）是一种用于展示一组数据分布特征的图形，它能够提供以下信息：

00

DAY6-学习R包

03

从头学R语言——DAY 3

R包直接在Rstudio页面下载的3大来源：官网CRAN、Biocductor、github

01

两个神奇的R包介绍，外加实用小抄

认识Tidy Data1.Reshape Data2.Handle Missing Values3.Expand Tables4.split cells一、测试数据1.新建数据框2.用tidyr进行处理3.按照geneid排序4.空值操作用表二、Dplyr能实现的小动作1.arrange 排序2.fliter3.distinct4.select5.mutate6.summarise7.bind_rows8.交集、并集、全集9.关联

04

Day6 呦呦鹿鸣—学习R包

列表书写顺序决定了最终合成列表中列的顺序,每列数值的类型必须相同；以"by"的列为标准，补齐列表，空值为"NA"

01

机器学习| 一个简单的入门实例-员工离职预测

2016年，我国员工离职率达到20.1%，一线城市22.4%，意味着你身边每10个同事中就有2个会离职。科技行业员工离职率最高，达到25.1%，其中主动离职率为21.6%。员工流失率太高显然对企业长期经营发展是不利，那么将大数据运用于员工离职预测，帮助企业制定策略、留住人才，势在必行，必定大有可为。

03

最佳截断值确定之cutoff

关于连续性变量最佳截断值的选择，之前介绍了survminer中的surv_cutpoint以及X-tile软件：

03

最佳截断值确定之cutoff

关于连续性变量最佳截断值的选择，之前介绍了survminer中的surv_cutpoint以及X-tile软件：

02

广义估计方程和混合线性模型在R和python中的实现

针对某个科学问题，通常会在一段时间内对多个同一研究对象进行多次或重复测量，这类数据一般称为纵向数据。纵向数据具有两个特点，一是研究对象重复；二是观察值可能存在缺失值。上述两个因素导致在探索结果和观测指标相关性分析时，一般线性（linear regression model）或广义线性模型（generalized regression model）以及重复测量方差分析（repeated ANOVA）均不适用。因此，广义估计方程(generalized estimating equations，GEE) 和混合线性模型(mixed linear model，MLM) 被广泛应用于纵向数据的统计分析。

00

纯生信免疫微环境末班车

今天和大家分享的是2020年2月发表在Aging（IF：4.831)上的一篇文章，“Profiles of immune cell infiltration and immune-related genes in the tumor microenvironment of osteosarcoma”。作者应用ESTIMATE的算法计算了TCGA中OS（骨肉瘤）队列的免疫评分，将OS病例分为高免疫评分组和低免疫评分组。比较了两组之间的免疫相关基因，通过COX回归分析建立了最佳的免疫风险相关模型。在CIBERSORT中评估TIC在OS的TME中的含量。最后进行基因富集分析提示高危OS患者的免疫抑制与不良预后相关。

02

最佳截断值确定之cutoff

关于连续性变量最佳截断值的选择，之前介绍了survminer中的surv_cutpoint以及X-tile软件：

01

一篇小短文助你打开数据可视化的任督二脉！

本文主要讨论ggplot2是如何通过颜色信号来对多边形进行填充的底层理念，这也是想要进阶R语言数据可视化过程中必须搞明白的关键环节。 ggplot2所有图层对象中，geom_ploygon（）几何图层对象最为复杂，也最为特殊：复杂在哪儿呢？这种几何对象所定义的多边形（特别是在地理信息数据里面），领土边界是基于行政区划、行政区划再细分为单个多边形（也就是group），单个多边形又是一组经纬度坐标点构成（按照order排序）。所以说geom_ploygon()所要显式声明的参数至少需要四个： data(地

04

R语言学习 - 柱状图

柱状图绘制柱状图也是较为常见的一种数据展示方式，可以展示基因的表达量，也可以展示GO富集分析结果，基因注释数据等。常规矩阵柱状图绘制有如下4个基因在5组样品中的表达值 data_ori <- "Grp_1;Grp_2;Grp_3;Grp_4;Grp_5 a;2.6;2.9;2.1;2.0;2.2 b;20.8;9.8;7.0;3.7;19.2 c;10.0;11.0;9.2;12.4;9.6 d;9;3.3;10.3;11.1;10" data <- read.table(text=data_ori

05

R数据科学整洁之道：使用dplyr操作数据表

dplyr 是 tidyverse 包的一部分，提供了许多操作数据框的工具，常用的有：

03

「R」dplyr 列式计算

同时对数据框的多列执行相同的函数操作经常有用，但是通过拷贝和粘贴的方式进行的话既枯燥就容易产生错误。

01

tidyverse|数据分析常规操作-分组汇总（sumamrise+group_by)

汇总函数 summarise()，可以将数据框折叠成一行 ,多与group_by()结合使用

06

dplyr-cli：在Linux Terminal上直接执行dplyr

熟悉R的朋友都会知道， dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。对于这个问题，今天即将需要介绍的 dplyr-cli就能很好的解决这个问题。

01

R||R语言基础（三）_R包

部分人可能会因为镜像的问题失败，解决方法https://mp.weixin.qq.com/s/XvKb5FjAGM6gYsxTw3tcWw

05

教你几招R语言中的聚合操作

在数据处理和分析过程中，可能会涉及到数据的聚合操作（可理解为统计汇总），如计算门店每天的营业总额、计算各地区的二手房的平均价格、统计每个消费者在近半年内最后一笔交易时间等。如果基于数据库SQL的语法来解决这些问题，将会显得非常简便，如果没有数据库环境该如何实现类似聚合问题的解决呢？

02

R海拾遗-tidyverse

tidyverse函数高效，代码简洁，受过专业训练的一般都用这个，除非记不住，能记一点是一点吧。 love&peace

01

tidyverse：R语言中相当于python中pandas+matplotlib的存在

tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法，包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats。出版有《R for Data Science》（中文版《R数据科学》），这本书详细介绍了tidyverse的使用方法。

01

ggstatsplot：R统计绘图的颜值天花板

写论文画图的时候小提琴图，热图，箱线图，画来画去都长得差不多，是不是觉得很烦恼？今天小编为大家介绍一个可以让科研论文统计绘图颜值提升好几个level的R包：ggstatsplot。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭