dplyr resumize: Equivalente a “.drop = FALSE” para manter os grupos com comprimento zero na saída

97

Ao usar summarisecom plyr's ddplyfunção, categorias vazias são descartados por padrão. Você pode alterar esse comportamento adicionando .drop = FALSE. No entanto, isso não funciona ao usar summarisecom dplyr. Existe outra maneira de manter categorias vazias no resultado?

Aqui está um exemplo com dados falsos.

library(dplyr)

df = data.frame(a=rep(1:3,4), b=rep(1:2,6))

# Now add an extra level to df$b that has no corresponding value in df$a
df$b = factor(df$b, levels=1:3)

# Summarise with plyr, keeping categories with a count of zero
plyr::ddply(df, "b", summarise, count_a=length(a), .drop=FALSE)

  b    count_a
1 1    6
2 2    6
3 3    0

# Now try it with dplyr
df %.%
  group_by(b) %.%
  summarise(count_a=length(a), .drop=FALSE)

  b     count_a .drop
1 1     6       FALSE
2 2     6       FALSE

Não é exatamente o que eu esperava. Existe um dplyrmétodo para alcançar o mesmo resultado que .drop=FALSEem plyr?

r dplyr plyr tidyr

— eipi10
fonte

9

github.com/hadley/dplyr/issues/341

— hadley

26

Já que o dplyr 0.8 group_by ganhou o .dropargumento que faz exatamente o que você pediu:

df = data.frame(a=rep(1:3,4), b=rep(1:2,6))
df$b = factor(df$b, levels=1:3)

df %>%
  group_by(b, .drop=FALSE) %>%
  summarise(count_a=length(a))

#> # A tibble: 3 x 2
#>   b     count_a
#>   <fct>   <int>
#> 1 1           6
#> 2 2           6
#> 3 3           0

Uma observação adicional para acompanhar a resposta de @Moody_Mudskipper: o uso .drop=FALSEpode fornecer resultados potencialmente inesperados quando uma ou mais variáveis de agrupamento não são codificadas como fatores. Veja os exemplos abaixo:

library(dplyr)
data(iris)

# Add an additional level to Species
iris$Species = factor(iris$Species, levels=c(levels(iris$Species), "empty_level"))

# Species is a factor and empty groups are included in the output
iris %>% group_by(Species, .drop=FALSE) %>% tally

#>   Species         n
#> 1 setosa         50
#> 2 versicolor     50
#> 3 virginica      50
#> 4 empty_level     0

# Add character column
iris$group2 = c(rep(c("A","B"), 50), rep(c("B","C"), each=25))

# Empty groups involving combinations of Species and group2 are not included in output
iris %>% group_by(Species, group2, .drop=FALSE) %>% tally

#>   Species     group2     n
#> 1 setosa      A         25
#> 2 setosa      B         25
#> 3 versicolor  A         25
#> 4 versicolor  B         25
#> 5 virginica   B         25
#> 6 virginica   C         25
#> 7 empty_level <NA>       0

# Turn group2 into a factor
iris$group2 = factor(iris$group2)

# Now all possible combinations of Species and group2 are included in the output, 
#  whether present in the data or not
iris %>% group_by(Species, group2, .drop=FALSE) %>% tally

#>    Species     group2     n
#>  1 setosa      A         25
#>  2 setosa      B         25
#>  3 setosa      C          0
#>  4 versicolor  A         25
#>  5 versicolor  B         25
#>  6 versicolor  C          0
#>  7 virginica   A          0
#>  8 virginica   B         25
#>  9 virginica   C         25
#> 10 empty_level A          0
#> 11 empty_level B          0
#> 12 empty_level C          0

Created on 2019-03-13 by the reprex package (v0.2.1)

— Moody_Mudskipper
fonte

Eu adicionei uma observação adicional à sua resposta. Sinta-se à vontade para deletar se não gostar da edição.

— eipi10

Eu tenho arquivado um problema sobre este no github para descobrir se este é um bug ou o comportamento desejado.

— eipi10

@ eipi10 ligeiramente mais curto é o uso de count:iris %>% count(Species, group2, .drop=FALSE)

— Tjebo

59

O problema ainda está aberto, mas enquanto isso, especialmente porque seus dados já estão fatorados, você pode usar completede "tidyr" para obter o que está procurando:

library(tidyr)
df %>%
  group_by(b) %>%
  summarise(count_a=length(a)) %>%
  complete(b)
# Source: local data frame [3 x 2]
# 
#        b count_a
#   (fctr)   (int)
# 1      1       6
# 2      2       6
# 3      3      NA

Se você quiser que o valor de substituição seja zero, você precisa especificar isso com fill:

df %>%
  group_by(b) %>%
  summarise(count_a=length(a)) %>%
  complete(b, fill = list(count_a = 0))
# Source: local data frame [3 x 2]
# 
#        b count_a
#   (fctr)   (dbl)
# 1      1       6
# 2      2       6
# 3      3       0

— A5C1D2H2I1M1N2O1R2T1
fonte

11

Levei muita batida cabeça contra a parede para descobrir isso, então vou mencioná-lo aqui ... Se você agrupar por 2 variáveis, e elas são caracteres em vez de fatores, você precisará usar ungroup()antes de concluir. Se você perceber que completenão está concluindo, ungroupprovavelmente será necessário.

— williamsurles

E se você tiver ainda mais variáveis de agrupamento? Eu obtenho um grande número de linhas (muito mais do que meu dataframe original) se eu usar todas as variáveis de agrupamento do meu group_by

— TobiO

1

Eu descobri: Você tem que usar aninhamento :-) Então coloque todas as Variáveis que não deveriam ser combinadas entre si complete(variablewithdroppedlevels, nesting(var1,var2,var3))(na verdade está na ajuda porque completeainda levei um tempo para descobrir

— TobiO

20

solução dplyr:

Primeiro faça df agrupado

by_b <- tbl_df(df) %>% group_by(b)

então resumimos os níveis que ocorrem contando com n()

res <- by_b %>% summarise( count_a = n() )

em seguida, mesclamos nossos resultados em um quadro de dados que contém todos os níveis de fator:

expanded_res <- left_join(expand.grid(b = levels(df$b)),res)

finalmente, neste caso, como estamos olhando para contagens, os NAvalores são alterados para 0.

final_counts <- expanded_res[is.na(expanded_res)] <- 0

Isso também pode ser implementado funcionalmente, consulte as respostas: Adicionar linhas aos dados agrupados com dplyr?

Um hack:

Pensei em postar um hack terrível que funciona neste caso por uma questão de interesse. Eu duvido seriamente que você deva realmente fazer isso, mas mostra como group_by()gera os atributos como se df$bfosse um vetor de caracteres e não um fator com níveis. Além disso, não pretendo entender isso corretamente - mas espero que isso me ajude a aprender - esse é o único motivo pelo qual estou postando isso!

by_b <- tbl_df(df) %>% group_by(b)

definir um valor "fora dos limites" que não pode existir no conjunto de dados.

oob_val <- nrow(by_b)+1

modifique os atributos para "truque" summarise():

attr(by_b, "indices")[[3]] <- rep(NA,oob_val)
attr(by_b, "group_sizes")[3] <- 0
attr(by_b, "labels")[3,] <- 3

faça o resumo:

res <- by_b %>% summarise(count_a = n())

indexe e substitua todas as ocorrências de oob_val

res[res == oob_val] <- 0

que dá o pretendido:

> res
Source: local data frame [3 x 2]

b count_a
1 1       6
2 2       6
3 3       0

— npjc
fonte

11

isso não é exatamente o que foi perguntado na pergunta, mas pelo menos para este exemplo simples, você poderia obter o mesmo resultado usando xtabs, por exemplo:

usando dplyr:

df %>%
  xtabs(formula = ~ b) %>%
  as.data.frame()

ou mais curto:

as.data.frame(xtabs( ~ b, df))

resultado (igual em ambos os casos):

— Talat
fonte