问题与方案
假设我们有这样一个数据集:
df <- data.frame(
c1 = c("a", "a", "a", "b", "b", "c"),
c2 = c(1, 3, 2, 1, 4,...out c1 c2
out 1 a 1
out 2 a 3
out 3 a 2
out 4 b 1
out 5 b 4
out 6 c 2
如果我们想保留每个c1分类和分类下的最大值...但如果分组有成千上万,分组的时间代价就很高了。有没有其他的方式可以解决该问题呢?
其实处理这种去重问题,特别还涉及到排序,我们可以采用先排序再去重的方式解决。...但注意,这里其实存在很多的变量,包括数据的行数、分组数目、以及实际情况下数据集的变量数目。哪种更适合需要根据现实场景进行测试考察。...本文的重点是,问题的解决之道往往不只一种,当程序慢下来的时候,我们不要忘记思考和尝试其他的方案。