首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

按dplyr分组的多个二进制变量的频率/百分比

dplyr是一个R语言中用于数据处理和操作的包,它提供了一组简洁且一致的函数,用于对数据进行分组、筛选、排序、汇总等操作。在dplyr中,可以使用group_by()函数对数据进行分组操作。

对于按dplyr分组的多个二进制变量的频率/百分比,可以使用summarize()函数结合其他函数来实现。以下是一个完善且全面的答案:

在dplyr中,可以使用group_by()函数对数据进行分组操作,然后使用summarize()函数结合其他函数来计算每个分组中多个二进制变量的频率或百分比。

首先,使用group_by()函数将数据按照需要分组的二进制变量进行分组,例如:

代码语言:txt
复制
grouped_data <- data %>% group_by(binary_var1, binary_var2)

然后,可以使用summarize()函数结合其他函数来计算每个分组中的频率或百分比。以下是两个常用的计算方法:

  1. 使用count()函数计算每个分组中的观测数量,并计算频率和百分比:
代码语言:txt
复制
result <- grouped_data %>% count() %>%
  mutate(frequency = n / sum(n),
         percentage = frequency * 100)

在上述代码中,count()函数用于计算每个分组中的观测数量,然后使用mutate()函数创建新的列来计算频率和百分比。

  1. 使用sum()函数计算每个分组中某个二进制变量为1的观测数量,并计算频率和百分比:
代码语言:txt
复制
result <- grouped_data %>% summarize(total = n(),
                                     count_var1 = sum(binary_var1),
                                     count_var2 = sum(binary_var2)) %>%
  mutate(frequency_var1 = count_var1 / total,
         frequency_var2 = count_var2 / total,
         percentage_var1 = frequency_var1 * 100,
         percentage_var2 = frequency_var2 * 100)

在上述代码中,summarize()函数用于计算每个分组中的总观测数量和某个二进制变量为1的观测数量,然后使用mutate()函数创建新的列来计算频率和百分比。

以上是按dplyr分组的多个二进制变量的频率/百分比的完善且全面的答案。

关于腾讯云相关产品和产品介绍链接地址,由于要求不能提及具体的云计算品牌商,无法给出具体的产品和链接。但是腾讯云作为一家知名的云计算服务提供商,提供了丰富的云计算产品和解决方案,可以根据具体需求在腾讯云官方网站上查找相关产品和介绍。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

数据处理|R-dplyr

dplyr包实现数据清洗处理,包括数据整合、关联、排序、筛选、汇总、分组等。...=Sepal.Width)) #只会保留选择变量 4)数据排序(重要,大小,去除异常值) arrange函数给定列名进行排序,默认为升序排列,也可以对列名加desc()进行降序排序。...Q:品种分组,分别计算花萼宽度均方差 summarise(group_by(iris,Species),sd=sd(Petal.Width)) 8)连接操作符 dplyr包里还新引进了一个操作符,%...iris %>%group_by(Species) %>% summarise(sd=sd(Petal.Width)) #iris数据集,Species分组,汇总Petal.Widthsd值, 9)...抽样 sample_n()随机抽取指定数目的样本,sample_frac()随机抽取指定百分比样本,默认都为不放回抽样,通过设置replacement =TRUE可改为放回抽样,可以用于实现Bootstrap

2K10

R语言学习 - 柱状图

柱子有点多,也可以利用mean±SD形式展现 首先计算平均值和标准差,使用group_bygene分组,对每组做summarize # 获取平均值和标准差 data_m_sd_mean <- data_m...在柱子中标记百分比值 首先计算百分比,同样是group_by (按照给定变量分组,然后组操作)和mutate两个函数(在当前数据表增加新变量) # group_by: 按照给定变量分组,然后组操作...长矩阵分面绘制 再复杂一些矩阵 (除了有不同时间点信息,再增加对照和处理信息) library(ggplot2) library(reshape2) library(dplyr) data_ori...获取平均值和标准差 # 分组时不只Gene一个变量了,还需要考虑Condition data_m_sd_mean % group_by(Gene, Condition) %>%...(计算百分比值需要注意了, 文本显示位置还是跟之前一致) # group_by: 按照给定变量分组,然后组操作 # mutate: 在当前数据表增加新变量 # 第一步增加每个组 (Group和Condition

2.5K50
  • R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

    R语言︱数据集分组 大型数据集通常是高度结构化,结构使得我们可以不同方式分组,有时候我们需要关注单个组数据片断,有时需要聚合不同组内信息,并相互比较。...## #dplyr中基本函数 select——子集选取(筛选变量,列) select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...##按照已有的类别数据,分类 g<-split(Cars93,Cars93$Origin) #按照cars93数据集,按照origin进行分组 ##例2:对矩阵分组列) m<-cbind...可见order用法 subset()在数据集中非常好用,which是针对较小数据筛选,比较低纬度数据筛选时候可以用。 subset=which+数据集操作 which=order+多变量运行。...data.table比较简洁一步搞定,dplyr花了两步,不过也dplyr也可以通过%>%来实现一步搞定。%>%功能是用于实现将一个函数输出传递给下一个函数第一个参数。

    20.8K32

    R语言数据处理:飞机航行距离与到达延误时间有什么关系??

    数据分析有一半以上时间会花在对原始数据整理及变换上,包括选取特定分析变量、汇总并筛选满足条件数据、排序、加工处理原始变量并生成新变量、以及分组汇总数据等等。...在这个环节,主要历经三个过程: 数据分组(Split):可以指定目标变量,将数据进行分组。...3.1 数据分组 dplyr包里分组是由group_by()函数实现,脚本输入代码: by_dest <- group_by(myFlights, destination) class(by_dest...这种运算符编写方式使得编程者可以数据处理时思路写代码, 一步一步操作不断叠加,在程序上就可以非常清晰体现数据处理步骤与背后逻辑。...拿上述代码进行举例,在没用管道之前,代码是这样: by_dest <- group_by(myFlights, destination)#目的地分组 delay_sum <- summarise(

    3.1K40

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时,data.table与data.frame数据呈现方面,还有有所不同。...2、条件行筛选 从前用subset方式进行筛选比较多, new=14,select=a:f) (1)单变量 现在data.table与dplyr from_dplyr =...DT数据集按照x分组,然后计算v变量和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)来改进: 链式操作是啥意思呢?...%>%功能是用于实现将一个函数输出传递给下一个函数第一个参数。注意这里,传递给下一个函数第一个参数,然后就不用写第一个参数了。在dplyr分组求和过程中,还是挺有用。...(x)] 还有 data$x 如果有很多名字很长指标,data.table中如果列进行遍历呢? data[,1]是不行,选中列方式是用列名。

    8.6K43

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    dplyr rename() 中用 “新名字 = 旧名字” 格式修改变量名,如: d2.class % dplyr::rename(h=height, w=weight...列号 select(test,1) select(test,c(1,5)) 列名 如果想要用向量来存放希望筛选列名,需要使用函数 one_of 来存放该向量。...pivot_longer/pivot_wider 大部分功能是类似的,这里主要说下pivot_longer 针对下面情况功能: 我们需要 指定切分变量名和随访号模式,以解决一行中有多个属性多次观测情形...summarize(test, mean(Sepal.Length), sd(Sepal.Length)) 在有多个变量需要汇总时,summarise 格式就会比较罗嗦。...将数据框某列拆分为多个数据框,并储存在列表中。

    10.9K30

    RFM模型及R语言实现

    一、基本概念 根据美国数据库营销研究所Arthur Hughes研究,客户数据库中有三个神奇要素,这三个要素构成了数据分析最好指标:最近一次消费(Recency)、消费频率(Frequency)、...这时候我们要考虑是直接用R(Recency)、F(Frequency)、M (Monetary)三个变量还是要进行变换,因为R、F、M三个字段测量尺度不同最好对三个变量进行标准化,例如:Z得分(实际情况可以选择线性插值法...有资料研究表明:对RFM各变量指标权重问题,Hughes,Arthur认为RFM在衡量一个问题上权重是一致,因而并没有给予不同划分。...(行),然后对每一组数据进行函数统计,最后把结果组合成一个比较nice表格返回 # aggregate(x, by, FUN, ..., simplify = TRUE) #统计每个用户购买总值...R=长 F=高 M=高   这类消费者考虑时间较长,虽然购买频率和购买金额都较高,但容易“溜走”,需要卖家给予“重要挽留”式措施去加以挽留。

    1.7K50

    DAY6-学习R包

    *Sepal.Width)要修改数据框名称将创建变量名称将分配给新变量值select()列筛选select(test,1)#筛选test中第一列select(test,c(1,5))#筛选...test中第一列和第五列select(test,Sepal.Length)#筛选test中名为Sepal.Length一列列名筛选select(test, Petal.Length, Petal.Width...","versicolor"行arrange(),某1列或某几列对整个表格进行排序arrange(test, Sepal.Length)#默认从小到大排序arrange(test, desc(Sepal.Length...summarise(group_by(test,Species),mean(Sepal.Length),sd(Sepal.Length))#按照Species分组,计算每组Sepal.Length平均值和标准差并汇总...dplyr两个实用技能管道操作 %>% —— 相当于将左边作为右边函数第一个参数,快捷键: ctrl+shift+M(不管用——改为Ctrl+a) test %>%  group_by(Species

    23130

    R语言 分组计算,不止group_by

    目录 1 dplyr包中group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 1 dplyr包中group_by联合summarize 1.1 group_by语法 data为数据集 ...为分组变量...,可以是一个也可以是多个多个的话以逗号分割group_by(mtcars, vs, am) 1.2 summarise语法 data为数据集,如果data被group_by定义分组,则根据分组变量分组计算...> library(dplyr) #加载dplyr包 > by_cyl <- group_by(mtcars,cyl) #对mtcars数据集根据cyl变量进行分组注意行5 > by_cyl # A...(group, sex)" ...为计算函数,可以是一个也可以是多个, 2.2 ddply分组计算示例 > library(plyr); library(dplyr) > dfx <- data.frame

    8.2K50

    分组统计你只想到group_by操作吗?

    目录 1 dplyr包中group_by联合summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4...$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 1 dplyr包中group_by联合summarize 1.1 group_by语法 data为数据集 ...为分组变量...,可以是一个也可以是多个多个的话以逗号分割group_by(mtcars, vs, am) 1.2 summarise语法 data为数据集,如果data被group_by定义分组,则根据分组变量分组计算...> library(dplyr) #加载dplyr包 > by_cyl <- group_by(mtcars,cyl) #对mtcars数据集根据cyl变量进行分组注意行5 > by_cyl # A...(group, sex)" ...为计算函数,可以是一个也可以是多个, 2.2 ddply分组计算示例 > library(plyr); library(dplyr) > dfx <- data.frame

    98830

    从头学R语言——DAY 3

    dplyr作为tidyverse中核心包之一,主要用于数据转换。...此处先掌握dplyr5个基本函数:mutate(),select(),filter(),arrange(),summaries();1个重要管道工具%>%#用dplyr包进行数据转换#5个核心函数test...# 先按照Species分组,计算每组Sepal.Length平均值和标准差group_by(test, Species)summarise(group_by(test, Species),mean(...= 'x')列名下3或4个字母缩写,是变量类型:int:整数型变量dbl:双精度浮点数型变量,即实数chr:字符串dttm:日期+时间型变量lgl:逻辑型变量fct:因子,R中具有固定数目的值分类变量...date:日期型变量深刻感受不同连接区别存疑问题☆尚有疑问:count(test,Species)现error,如何实现应有作用?

    8410

    用【R语言】揭示大学生恋爱心理:【机器学习】与【深度学习】案例深度解析

    本案例中数据来自某大学恋爱心理问卷调查,包含多个变量,如年龄、性别、恋爱状态、社交活动频率等。这些变量将作为我们分析和建模基础。...为了更深入地了解数据,我们还可以绘制性别分组年龄分布图。...Gender", x="Age", y="Count") + theme_minimal() + theme(plot.title = element_text(hjust = 0.5)) 恋爱状态分组社交活动频率分布图...最后,我们绘制恋爱状态分组社交活动频率分布图,以了解不同恋爱状态学生社交活动频率。...# 恋爱状态分组社交活动频率分布图 ggplot(data, aes(x=social_activity, fill=love_status)) + geom_bar(position="dodge

    14410

    dplyr-cli:在Linux Terminal上直接执行dplyr

    对于这个问题,今天即将需要介绍 dplyr-cli就能很好解决这个问题。 dplyr介绍 首先再和大家简单介绍一下 dplyr包(避免有些刚入门朋友可能不熟悉)。...dplyr功能主要包括: 变量筛选函数 select 筛选函数 filter 排序函数 arrange 变形(计算)函数 mutate 汇总函数 summarize 分组函数 group_by 多步操作连接符...littler命令行前端由“ r”(又称“轻量”)提供,作为围绕GNU R语言和统计计算和图形环境轻量级二进制包装器。...尽管R可以在批处理模式下使用,但r二进制文件完全支持'shebang'样式脚本(即在脚本第一行中使用hash-mark-exclamation-path表达式)以及在标准Unix管道。.../dplyr select --file mtcars.csv -c cyl | head -n 6 实例二:多个数据处理参数结合 创建名为 cyl2新一列,它值为 cyl两倍,再提取 cyl

    2.1K10

    数据可视化干货:使用pandas和seaborn制作炫酷图表(附代码)

    现在让我们看下使用seaborn进行星期几数值计算小费百分比(见图9-19中结果图): In [83]: import seaborn as sns In [84]: tips['tip_pct']...▲图9-19 用错误栏天显示小费百分比 seaborn中绘图函数使用一个data参数,这个参数可以是pandasDataFrame。其他参数则与列名有关。...参考seaborn.pairplot文档字符串可以看到更多细节设置选项。 05 分面网格和分类数据 如果数据集有额外分组维度怎么办?使用分面网格是利用多种分组变量对数据进行可视化方式。...▲图9-26 星期几数值/时间/是否吸烟划分小费百分比 除了根据'time'在一个面内将不同分组为不同颜色,我们还可以通过每个时间值添加一行来扩展分面网格(见图9-27): In [109]:...▲图9-27 根据时间/是否吸烟分面后星期几数值划分小费百分比 factorplot 支持其他可能有用图类型,具体取决于你要显示内容。

    5.4K40

    GMSB文章七:微生物整合分析

    以下是两种分析定义:多元方差分析(Multivariate Analysis of Variance,简称MANOVA)是一种统计方法,用于同时分析多个变量(dependent variables)...对一个或多个变量(independent variables)影响。...它是一种扩展了单变量方差分析(ANOVA)技术,允许研究者检验多个响应变量是否受到一个或多个分类自变量影响。多维数据:MANOVA处理是多维数据集,即每个观测值都有多个响应变量测量值。...线性模型:它基于线性模型,其中每个因变量可以表示为自变量线性组合加上误差项。假设检验:MANOVA检验核心是假设检验,主要检验自变量对因变量总体影响是否显著。...这包括检验自变量主效应、交互效应以及它们对因变量联合效应。协方差矩阵:MANOVA考虑了因变量之间相关性,通过分析协方差矩阵来评估这种相关性。

    9610

    R语言naniar包(新名词:阴影矩阵;Shadow matrices)

    naniar提供了一种用于处理缺失数据数据结构,即阴影矩阵。阴影矩阵与数据维数相同,由数据值缺失二进制指示符组成,其中缺失表示为“ NA”,而未缺失表示为“!...变量可视化 借助tidyverse工具,naniar在遵循易于阅读一致原则同时做到了这一点,naniar还为每个变量提供了方便可视化效果。 gg_miss_var(airquality) ?...统计缺失和完整观测值 naniar还提供了方便助手来计算缺失和完整观测值数量,比例和百分比: n_miss(airquality) #> [1] 44 n_complete(airquality)...可以使用miss_var_summary()和miss_case_summary()查看每种情况下缺失数量和百分比以及变量,它们都返回缺失值数量排序输出。...library(dplyr) #> #> Attaching package: 'dplyr' #> The following objects are masked from 'package:stats

    1.7K20
    领券