按dplyr字符串的最高出现率筛选分组行

dplyr 是 R 语言中一个非常流行的数据操作包，它提供了丰富的函数来处理和分析数据。如果你想要根据字符串的最高出现率来筛选分组行，你可以使用 dplyr 中的组合函数来实现这一目标。

基础概念

在这个上下文中，"字符串的最高出现率" 指的是在一个特定的分组内，某个字符串出现的频率高于其他字符串。筛选分组行意味着你只保留那些在分组内具有最高出现率的字符串对应的行。

类型与应用场景

这种方法适用于需要对数据进行分组，并且对每个分组内的数据进行特定条件筛选的场景。例如，在文本分析中，你可能需要找出每个文档中最常见的单词。

示例代码

假设我们有一个数据框 df，其中包含两列：group 和 text。我们想要找出每个 group 中出现次数最多的 text。

library(dplyr)

# 示例数据
df <- data.frame(
  group = c(1, 1, 2, 2, 2, 3),
  text = c("apple", "banana", "apple", "apple", "banana", "cherry")
)

# 使用 dplyr 筛选每个分组中出现次数最多的 text
result <- df %>%
  group_by(group) %>%
  count(text, sort = TRUE) %>%
  filter(n == max(n)) %>%
  select(-n) %>%
  left_join(df, by = c("group", "text"))

print(result)

解释

group_by(group)：按 group 列对数据进行分组。
count(text, sort = TRUE)：计算每个分组内 text 的出现次数，并按次数降序排序。
filter(n == max(n))：筛选出每个分组中出现次数最多的 text。
select(-n)：移除计数列 n，因为我们只关心 text 和 group。
left_join(df, by = c("group", "text"))：将筛选结果与原始数据框 df 进行左连接，以恢复完整的行信息。

遇到的问题及解决方法

如果你在执行上述代码时遇到问题，可能的原因包括：

数据类型不匹配：确保 group 和 text 列的数据类型正确。
分组内所有文本都相同：如果某个分组内的所有 text 都相同，max(n) 将返回该 text 的计数，这可能不是你想要的结果。
空分组：如果存在空分组，filter(n == max(n)) 可能会失败。可以通过添加条件 n > 0 来避免这个问题。

解决方法：

检查并确保数据类型正确。
如果分组内所有文本都相同，你可能需要重新考虑你的筛选逻辑。
对于空分组，可以在 filter 步骤中添加额外的条件来处理。

通过这种方式，你可以有效地使用 dplyr 来处理和分析数据集中的字符串频率问题。

按dplyr字符串的最高出现率筛选分组行

、

在这个数据集中，每一行都有一个唯一的基因标识符(qry_gene_id)，并且每个qry_gene_id可以有多个qry_transcript_ids。我想对数据集进行筛选，以便从每个qry_gene_id中选择go_id数量最多的qry_transcript_id (GO:XXXXXXX)。go_id列是由","分隔的go_id列表。我想要确保我的过滤器选择了一个与GO ids完全一致的文本。然而，我被困在如何适当地过滤这个问题上。这就是我所在<

浏览 6提问于2020-12-17得票数 1

回答已采纳

1回答

与两个不同的百分比变量相关的条形图

、、

我想要创建一个带gg框图的堆叠条形图，其中条形图的高度取决于一个变量的值(投票率以%为单位)，而条形图的堆栈单独加起来则是另一个变量的100% (voteshare in %)。因此，1990年的投票率为96.7 %，每个政党的投票率为100% ( 96.7%)。我看了3个政党和3年的数据。这是我的数据： party <- c("a", "b&q

浏览 0提问于2018-04-25得票数 0

回答已采纳

2回答

只保留最近的日期

、

2016;C10711/03/2020;C11018/02/2020;C114我想为每个代码选择最近的日期

浏览 8提问于2020-04-02得票数 2

回答已采纳

1回答

如果列中的每个唯一值显示小于n次，则有条件地删除行。

、

410 412 514 5如何删除number中每个唯一值都小于5行的行，上面的tibble将变成：1 53 55 54 46 5 7

浏览 1提问于2022-10-17得票数 0

回答已采纳

0回答

Spark窗口函数按行中最频繁值聚合

、、、、

我希望在给定的窗口中获取一行中出现频率最高的字符串，并将该值放在新行中。(我使用的是Pyspark)123 a 21123 b 78 我正在做一些聚合，目前我同时按window和label进行分组。sqlContext.sql(

浏览 7提问于2016-07-12得票数 1

回答已采纳

1回答

获取dataframe中某组某列的最大值

、、

51 260 1977 adventure 4.132299 77045数据大约有10000行。我想要计算每个流派每年的平均收视率，然后创建一个数据帧来获得每年的最大收视率，并获得该值的流派。All_data %>% group_by(year,

浏览 168提问于2018-07-11得票数 1

回答已采纳

2回答

是否可以筛选成组的SQL行？

、、

我想将行组合在一起，然后过滤每个组。| 2 | Region2 bbb4 | bbb | 5 | Region5 bbbSELECT filenameGROUP BY filename ..。但是，我是否可以在每个具有最高区域值的组中选择条目，在这种情况下，哪个是I 3和4的行

浏览 0提问于2018-01-26得票数 0

回答已采纳

2回答

按年份分组数据，并对全年进行筛选

、、、

我有一个df，包含2006年到2018年的贸易数据('all_ trade '，345344行)。我想筛选出每年的第一个交易价值分位数(按年分组，然后应用过滤器)。试过trade_3q <- all_trade %>% group_by(all_trade$Year) %>% filter(all_trade$log_trade> quantile(all_trade$log_trade,

浏览 2提问于2021-01-05得票数 0

回答已采纳

1回答

我需要帮助根据特定的字符串字符合并两行，字符串就是抱怨。

、、、、

我正在努力计算纽约市每个邮编的建筑噪音的分数。这些数据来自纽约特区311。comp_types <- df %>% select(complaint_type,descriptor,incident_zip) %>

浏览 4提问于2022-12-02得票数 -1

1回答

R中字符变量中字符串的最大出现次数

、

ruralXYZ urbanEFG rural我使用dplyr解决了这个问题，但我得到了错误。以下是我的解决方案： lib

浏览 3提问于2016-01-22得票数 0

2回答

使用R创建包含重复项的新数据库

、

在R中-我已经找到了一些解决方案，可以让我对ID的数量进行计数，但不能给出完整的列表。

浏览 0提问于2021-04-21得票数 0

2回答

如何删除数据集的重复值，并统计每个值重复多少次？

我每个月都会得到一个包含重复值的唯一引用ID的数据集。我必须删除重复的唯一I，并计算每个I被复制的次数。

浏览 2提问于2019-05-07得票数 0

2回答

移除R中跨多列组中的NAs

、、、

我经常使用如下所示的时间序列数据集：2006-09-29 4.08 NA2006-12-29 4.11 NA2006 Q2 4.69 4.252006 Q4 4.11 4.06 是否有一种简单/优雅的方法来实现这一点，最好是使用dplyr

浏览 1提问于2020-01-27得票数 1

回答已采纳

2回答

基于某个字符串在一个变量中至少出现两次来创建新列

、

我有一个包含变量'id‘和'var1’的数据框，如下所示：id <- sample(1:3, 10, replace = TRUE)var1<- sample(LETTERS[1:3], 10, replace = TRUE)如果某些字符串在var1中至少出现两次，我想按'id‘对数据框进行分组因此，当'df‘按&#

浏览 14提问于2020-02-18得票数 0

回答已采纳

1回答

比较两个数据格式并创建新值

、

我有两个数据处理程序，一个是这样的： SNP Symbols4 STAC3 126 NDUFA4L2 0我想得到每个SNP列得分最高的符号，然后找到分数所占的“比例”。

浏览 3提问于2022-11-17得票数 0

2回答

基于R中相似结果的群

、

我想group_by类似的结果(不是唯一的)，我不知道怎么做。|---------------------|------------------| 这个想法是建立一个像0,8 (或类似)的阈值来识别符合率为80%的结果。然后将它们按'similar_names‘与dplyr<

浏览 3提问于2019-12-13得票数 0

回答已采纳

1回答

如何在power bi中将最高值名称复制为新列值？

、、、、

我正在尝试创建一个新列，该列由最高值名称填充，条件为“今天日期”，如果假设两个值相同，那么我们必须选择第一个值名。我的桌子是我期望的桌子是条件是使用计数值从查看最多的屏幕中选择“屏幕名称有新列值”，所选客户计数应按id和开始日期为1组。

浏览 1提问于2020-01-09得票数 0

回答已采纳

1回答

根据符合标准的观测数在R中细分数据集。[R]

我有一个如下所示的数据集：例如，在这种情况下，我只想观察一个员工在同一个月中至少有两个CSAT分数。在这种情况下，我们将滤除观测值1、2和8。

浏览 2提问于2016-09-19得票数 1

回答已采纳

1回答

如何删除dataframe中持续6小时或更长时间的所有负面事件

、

目前，我只知道如何删除所有负值，但我有一个数据框，我想只删除显示相关事件的负值，例如，在特定时间段:6小时或更长时间内的一致负值 date:00 -6036261025302 2013-02-13 23:00:00 8442921517301 2013-02-13 21:00:00 8

浏览 12提问于2020-02-04得票数 1

回答已采纳

1回答

计算一个变量按第二个变量分组，迭代所有第二个变量dplyr的最简单方法是什么？

、、、

我有一个包含大量变量的数据框架，其中一个变量是所有其他人预测的死亡概率。作为初步步骤，我想通过计算每个变量的垃圾箱中的死亡率来计算PoD。= c(25, 57, 60), weight = (80, 92, 61), cigarettes_a_day = c(30, 2, 19), death_flag=c(1,0,1)) 然后，我可以按年龄分组(例如50岁以下和50岁以上)，并将PoD计算为一个组的死亡率，即death_flags<

浏览 9提问于2022-08-16得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

按dplyr字符串的最高出现率筛选分组行

基础概念

相关优势

类型与应用场景

示例代码

解释

遇到的问题及解决方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐