首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用一组规则的多个列的方差

使用一组规则的多个列的方差
EN

Stack Overflow用户
提问于 2021-10-24 21:19:29
回答 2查看 52关注 0票数 2

我刚刚开始熟悉validate包。不幸的是,一开始我遇到了一个问题,我找不到正确的解决方案。我想创建一个验证规则,稍后可以将其应用于多个变量。我将在一个示例中展示它。我有一台这样的tibble

代码语言:javascript
运行
复制
library(tidyverse)
library(validate)

df = tibble(
  id = rep(1:10, each=20),
  name = rep(paste0("v", 1:20), 10),
  value = rnorm(length(name))
) %>% pivot_wider()

otuput

代码语言:javascript
运行
复制
# A tibble: 10 x 21
      id     v1     v2      v3      v4     v5     v6      v7       v8      v9    v10
   <int>  <dbl>  <dbl>   <dbl>   <dbl>  <dbl>  <dbl>   <dbl>    <dbl>   <dbl>  <dbl>
 1     1  1.20   0.182 -1.53    2.73   -1.60  -0.976 -0.767  -2.28    -0.257   0.736
 2     2  0.484  0.913 -0.873  -0.801   0.172  1.11  -1.71    0.0125   0.0450  0.374
 3     3 -0.604 -0.405  0.482   0.998  -0.634  0.212  0.717   0.598   -0.876   0.139
 4     4 -0.324 -1.83   0.0195 -1.70    0.506 -0.139  3.21   -0.00169 -0.200  -1.03 
 5     5  0.268  1.40   0.349   0.667   1.76   0.926 -1.09   -0.487    2.03    0.203
 6     6  0.646  0.516  0.849  -0.619  -2.18   0.126 -0.0956 -0.471    0.0342  0.530
 7     7 -1.03  -1.27  -0.0716 -2.13   -0.340  1.20   0.746  -0.366   -2.82   -0.431
 8     8  0.415  0.313  0.591  -0.0552  0.132  1.86  -0.427   0.390   -0.506  -0.470
 9     9  0.309  1.13  -0.472   0.760  -0.549 -0.954 -0.219  -0.653    0.335  -0.870
10    10  1.06   1.30   1.12    0.646   0.279 -1.45  -0.891  -0.278    0.637   0.236
# ... with 10 more variables: v11 <dbl>, v12 <dbl>, v13 <dbl>, v14 <dbl>, v15 <dbl>,
#   v16 <dbl>, v17 <dbl>, v18 <dbl>, v19 <dbl>, v20 <dbl>

我可以使用以下规则验证一个变量:

代码语言:javascript
运行
复制
df %>% 
  confront(
    validator(
      num.val = is.numeric(v1),
      big.val = !(v1>10),
      low.val = !(v1< -10),
      NA.val = !is.na(v1)
    )
  ) %>% summary()
#      name items passes fails nNA error warning     expression
# 1 num.val     1      1     0   0 FALSE   FALSE is.numeric(v1)
# 2 big.val    10     10     0   0 FALSE   FALSE       v1 <= 10
# 3 low.val    10     10     0   0 FALSE   FALSE      v1 >= -10
# 4  NA.val    10     10     0   0 FALSE   FALSE     !is.na(v1)

但是,我想使用一些简单的符号将此规则应用于多个列。不幸的是,下面的代码不起作用。

代码语言:javascript
运行
复制
df %>% 
  confront(
    validator(
      num.val = is.numeric(v1:v20),
      big.val = !(v1:v20>10),
      low.val = !(v1:v20< -10),
      NA.val = !is.na(v1:v20)
    )
  ) %>% summary()
#      name items passes fails nNA error warning         expression
# 1 num.val     1      1     0   0 FALSE    TRUE is.numeric(v1:v20)
# 2 big.val     1      1     0   0 FALSE    TRUE       v1:v20 <= 10
# 3 low.val     1      1     0   0 FALSE    TRUE      v1:v20 >= -10
# 4  NA.val     1      1     0   0 FALSE    TRUE     !is.na(v1:v20)

我知道我总是可以将我的数据转换成长格式。

代码语言:javascript
运行
复制
df %>% 
  pivot_longer(v1:v20) %>% 
  confront(
    validator(
      num.val = is.numeric(value),
      big.val = !(value>10),
      low.val = !(value< -10),
      NA.val = !is.na(value)
    )
  ) %>% summary()
#      name items passes fails nNA error warning        expression
# 1 num.val     1      1     0   0 FALSE   FALSE is.numeric(value)
# 2 big.val   200    200     0   0 FALSE   FALSE       value <= 10
# 3 low.val   200    200     0   0 FALSE   FALSE      value >= -10
# 4  NA.val   200    200     0   0 FALSE   FALSE     !is.na(value)

但是,在这种情况下,我将无法确定验证在哪个变量中失败。

对于如何轻松地将一个验证规则应用于多个选定的变量,有什么建议吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-10-25 02:40:28

如果我们通过group_spliting在pivot_longer中更改了OP的代码,它应该可以工作

代码语言:javascript
运行
复制
library(purrr)
library(dplyr)
library(tidyr)
out <- df %>% 
  pivot_longer(v1:v20) %>% 
  group_split(name) %>% 
  map(~ .x %>% confront(
    validator(
      num.val = is.numeric(value),
      big.val = !(value>10),
      low.val = !(value< -10),
      NA.val = !is.na(value)
    )
  ) %>% summary()) 

-output

代码语言:javascript
运行
复制
> out[1:4]
[[1]]
     name items passes fails nNA error warning        expression
1 num.val     1      1     0   0 FALSE   FALSE is.numeric(value)
2 big.val    10     10     0   0 FALSE   FALSE       value <= 10
3 low.val    10     10     0   0 FALSE   FALSE      value >= -10
4  NA.val    10     10     0   0 FALSE   FALSE     !is.na(value)

[[2]]
     name items passes fails nNA error warning        expression
1 num.val     1      1     0   0 FALSE   FALSE is.numeric(value)
2 big.val    10     10     0   0 FALSE   FALSE       value <= 10
3 low.val    10     10     0   0 FALSE   FALSE      value >= -10
4  NA.val    10     10     0   0 FALSE   FALSE     !is.na(value)

[[3]]
     name items passes fails nNA error warning        expression
1 num.val     1      1     0   0 FALSE   FALSE is.numeric(value)
2 big.val    10     10     0   0 FALSE   FALSE       value <= 10
3 low.val    10     10     0   0 FALSE   FALSE      value >= -10
4  NA.val    10     10     0   0 FALSE   FALSE     !is.na(value)

[[4]]
     name items passes fails nNA error warning        expression
1 num.val     1      1     0   0 FALSE   FALSE is.numeric(value)
2 big.val    10     10     0   0 FALSE   FALSE       value <= 10
3 low.val    10     10     0   0 FALSE   FALSE      value >= -10
4  NA.val    10     10     0   0 FALSE   FALSE     !is.na(value)
票数 2
EN

Stack Overflow用户

发布于 2021-10-25 01:04:17

这种方法来自validate::syntax,使用.放入整个数据,但num.val得到不同的结果。我查找了一下Data Validation Cookbook,但是我找不到用简单的方法选择多列的方法。

代码语言:javascript
运行
复制
df %>% 
  select(-id) %>%
  confront(
    validator(
      num.val = is.numeric(.),
      big.val = !(.>10),
      low.val = !(.< -10),
      NA.val = !is.na(.)
    )
  ) %>% summary() 

     name items passes fails nNA error warning    expression
1 num.val     1      0     1   0 FALSE   FALSE is.numeric(.)
2 big.val   200    200     0   0 FALSE   FALSE       . <= 10
3 low.val   200    200     0   0 FALSE   FALSE      . >= -10
4  NA.val   200    200     0   0 FALSE   FALSE     !is.na(.)
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69700850

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档