A ANOVA pode ser significativa quando nenhum dos testes t pareados é?


29

É possível que a ANOVA unidirecional (com grupos ou "níveis") relate uma diferença significativa quando nenhum dos testes t pares t?N>2N(N-1)/2

Em esta resposta @whuber escreveu:

É sabido que um teste global de ANOVA F pode detectar uma diferença de médias, mesmo nos casos em que nenhum teste t individual [não ajustado em pares] de qualquer um dos pares de médias produzirá um resultado significativo.

então, aparentemente, é possível, mas eu não entendo como. Quando isso acontece e qual seria a intuição por trás de tal caso? Talvez alguém possa dar um exemplo simples de brinquedo dessa situação?

Algumas observações adicionais:

  1. O oposto é claramente possível: a ANOVA geral pode não ser significativa, enquanto alguns dos testes t em pares relatam erroneamente diferenças significativas (isto é, seriam falsos positivos).

  2. Minha pergunta é sobre padrão, não ajustado para comparações múltiplas de testes t. Se testes ajustados forem usados ​​(como, por exemplo, o procedimento HSD de Tukey), é possível que nenhum deles seja significativo, mesmo que a ANOVA geral seja. Isso é abordado aqui em várias perguntas, por exemplo, como posso obter uma ANOVA geral significativa, mas sem diferenças significativas em pares com o procedimento de Tukey? e interação ANOVA significativa, mas comparações pareadas não significativas .

  3. Atualizar. Minha pergunta originalmente se referia aos testes t pareados de duas amostras usuais . No entanto, como @whuber apontou nos comentários, no contexto ANOVA, os testes t são geralmente entendidos como contrastes post hoc usando a estimativa ANOVA da variação dentro do grupo, agrupada em todos os grupos (o que não acontece em dois - teste t de amostra). Portanto, existem duas versões diferentes da minha pergunta, e a resposta para as duas acaba sendo positiva. Ver abaixo.


3
Sua pergunta é abordada em vários tópicos: tente pesquisar em nosso site com uma regressão significativa . (ANOVA é uma aplicação de regressão de mínimos quadrados.) Por exemplo, stats.stackexchange.com/questions/14500/… fornece um exemplo explícito e alguma intuição. Pesquise e edite sua pergunta, se possível, para distingui-la dos tópicos anteriores.
whuber

Obrigado, eu nunca vi isso antes. No entanto, tenho muita dificuldade em traduzir essas explicações sobre regressão múltipla para o idioma das comparações ANOVA. É claro que esse é meu próprio problema, mas acho que não estou sozinho, portanto, talvez uma resposta à minha pergunta ainda seja útil para a comunidade. Aqui está minha confusão: alguém deu um exemplo de regressão de peso para os tamanhos de sapato esquerdo / direito (dois IVs fortemente correlacionados) => F significante, não. Muito bem. Agora, na regressão ANOVA com 3 grupos, existem 2 IVs fictícios ; eles são manequins => sempre perfeitamente correlacionados ... E daí?
Ameba diz Reinstate Monica

Receio não seguir essa última observação. Primeiro, a questão não está necessariamente relacionada à forte correlação na matriz de design. Segundo, os manequins não são "perfeitamente anticorrelacionados": se fossem, o software teria que abandonar um deles de qualquer maneira. Talvez você esteja se referindo a problemas mais sutis nos modelos ANOVA mais complexos .
whuber

@amoeba: suas variáveis ​​dummy estão negativamente correlacionadas.
Michael M

3
Excepto sua "observação adicional" não. 1. Só porque você tem comparações pareadas altamente significativas e um F não significativo não implica que esses resultados significativos sejam falsos positivos. Para ter certeza de que algo é um falso positivo, você deve saber que não há diferença nos meios reais, os MUs. A estatística F não é sagrada. De fato, nem é obrigatório. É mais útil para a seleção de modelos, mas além disso, dificilmente é informativo sobre o que especificamente está acontecendo em seus dados.
RVL

Respostas:


18

Nota: havia algo errado com o meu exemplo original. Estupidamente, fui pego pela reciclagem silenciosa de argumentos de R. Meu novo exemplo é bastante semelhante ao meu antigo. Espero que esteja tudo certo agora.

Aqui está um exemplo que fiz que tem a ANOVA significativa no nível de 5%, mas nenhuma das 6 comparações pareadas é significativa, mesmo no nível de 5% .

Aqui estão os dados:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

insira a descrição da imagem aqui

Aqui está a ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Aqui estão os dois valores p de teste t de amostra (suposição de variância igual):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Com um pouco mais de brincadeira com médias de grupo ou pontos individuais, a diferença de significância pode ser mais impressionante (na medida em que eu poderia tornar o primeiro valor-p menor e o mais baixo do conjunto de seis valores-p para o teste t maior )

-

Edit: Aqui está um exemplo adicional que foi originalmente gerado com ruído sobre uma tendência, que mostra o quanto você pode melhorar se mover um pouco os pontos:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

EF tem um valor de p abaixo de 3% e nenhum dos t tem um valor de p abaixo de 8%. (Para um exemplo de 3 grupos - mas com um valor p um pouco maior no F - omita o segundo grupo)

E aqui está um exemplo muito simples, se mais artificial, com 3 grupos:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(Nesse caso, a maior variação está no grupo do meio - mas, devido ao maior tamanho da amostra, o erro padrão da média do grupo ainda é menor)


Testes t de múltiplas comparações

whuber sugeriu que eu considerasse o caso de múltiplas comparações. Isso prova ser bastante interessante.

O argumento para comparações múltiplas (todas conduzidas no nível de significância original - ou seja, sem ajustar o alfa para comparações múltiplas) é um pouco mais difícil de alcançar, pois brincar com variações maiores e menores ou mais e menos df nos diferentes grupos não ajuda. da mesma maneira que nos testes t comuns de duas amostras.

No entanto, ainda temos as ferramentas para manipular o número de grupos e o nível de significância; se escolhermos mais grupos e níveis de significância menores, torna-se relativamente simples identificar casos. Aqui está um:

nEu=2α=0,0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

No entanto, o menor valor p nas comparações pareadas não é significativo que esse nível:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
O teste t de duas amostras não é o mesmo que testes pareados na regressão. A distinção está nas estimativas da variação residual. Portanto, seus exemplos não são realmente exemplos do paradoxo mais forte, que é o de que, dentro de uma e a mesma análise de regressão, o teste F pode ser significativo, enquanto nenhuma de suas comparações pareadas é significativa. Eu acredito que esse paradoxo também não necessariamente decorre da heterocedasticidade: ele pode aparecer mesmo quando todas as variações de grupo são iguais.
whuber

4
Mais interessante ainda é abordar quando é possível que o teste F rejeite o nulo, mas nenhum dos testes t emparelhados o rejeite no mesmo nível de significância (usando a mesma estimativa de variação de erro do teste F). Por exemplo, para 3 grupos com tamanhos de amostra iguais, a união da região de rejeição de 5% para os testes t em pares contém a região de rejeição de 5% para o teste F ANOVAR, mesmo quando o tamanho da amostra é muito grande.
Scortchi - Restabelece Monica

4
0,005F

4
Ameba, a confusão surge do fato de que "testes t em pares" podem significar duas coisas. No contexto da ANOVA, geralmente seria entendido como significando contrastes post hoc usando as estimativas da ANOVA. Como outros já apontaram, isso não é o mesmo que realizar o teste t usual em pares de grupos, porque a versão ANOVA é baseada em uma estimativa da variação dentro do grupo derivada de todos os grupos.
whuber

2
Eu acho que você fez um bom resumo. Eu me referi ao paradoxo como "mais forte" no sentido de que, quando todos os testes são conduzidos no âmbito de uma única análise ANOVA, seria de esperar (ingenuamente) que eles fossem internamente consistentes. (Quando você realiza dois conjuntos de testes que não são inerentemente relacionados, não deve ser surpresa quando eles dão resultados conflitantes: isso acontece com frequência.) Temos que aceitar que é logicamente consistente e estatisticamente válido para concluir esse grupo. As médias variam significativamente, sem encontrar diferenças entre pares específicos de grupos.
whuber

4

Resumo: acredito que isso é possível, mas muito, muito improvável. A diferença será pequena e, se acontecer, é porque uma suposição foi violada (como a homoscedasticidade da variação).

Aqui está um código que procura essa possibilidade. Observe que ele aumenta a semente em 1 cada vez que é executado, para que a semente seja armazenada (e a pesquisa através das sementes seja sistemática).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Procurando um R2 significativo e nenhum teste t não significativo, não encontrei nada até uma semente de 18.000. Procurando por um valor p mais baixo a partir de R2 do que nos testes t, obtenho um resultado em seed = 323, mas a diferença é muito, muito pequena. É possível que ajustar os parâmetros (aumentando o número de grupos?) Possa ajudar. A razão pela qual o valor p de R2 pode ser menor é que, quando o erro padrão é calculado para os parâmetros na regressão, todos os grupos são combinados; portanto, o erro padrão da diferença é potencialmente menor do que no teste t.

Gostaria de saber se violar a heterocedasticidade pode ajudar (por assim dizer). Faz. Se eu usar

y <- (rnorm(600) + x * 0.01) * x * 5

Para gerar y, encontro um resultado adequado em seed = 1889, onde o valor p mínimo dos testes t é 0,061 e o valor p associado ao quadrado R é 0,046.

Se eu variar os tamanhos dos grupos (o que aumenta o efeito da violação da heterocedasticidade), substituindo a amostragem x por:

x <- sample(c(0:5), 100, replace=TRUE)

Eu obtenho um resultado significativo na semente = 531, com o valor t mínimo do teste t em 0,063 e o valor p para R2 em 0,046.

Se eu parar de correção para heterocedasticidade no t-teste, usando:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Minha conclusão é que é muito improvável que isso ocorra, e é provável que a diferença seja muito pequena, a menos que você tenha violado a suposição de homoscedasticidade na regressão. Tente executar a sua análise com uma robusta / sandwich / o que você quiser chamá-lo de correção.


Você parece ter uma frase inacabada começando com "Se eu parar de corrigir a heterocedasticidade no teste t". Além disso, muito obrigado! Por favor, veja minha atualização para a pergunta. Observe também o primeiro comentário do @ whuber aqui em cima; se eu entendi direito, ele insiste que tal situação pode facilmente (?) acontecer (e chama de "bem conhecida"). Talvez haja algum mal-entendido aqui, mas o que é?
ameba diz Restabelecer Monica

Acho que o @whuber está falando sobre parâmetros não significativos no modelo, testes t não significativos.
Jeremy Miles

Não ele não é. Se é bem conhecido, não sei e tentei dar um exemplo, e não posso.
Jeremy Miles

1
Fico feliz, então, que o @Glen_b tenha produzido um exemplo simples. A intuição é que o teste geral avalie se há evidências de que o spread nas médias do grupo não possa ser razoavelmente explicado apenas pela variação residual. Os testes aos pares, envolvendo apenas duas médias de cada vez, devem ser consideravelmente mais conservadores na avaliação da mesma evidência. Portanto, mesmo comparando as duas médias de grupos extremos, pode não conseguir descobrir uma diferença significativa quando a distribuição geral de todas as médias é significativa. Às vezes, isso ocorre na prática, especialmente com um grande número de grupos.
whuber

3
Aliás, o motivo para chamar isso de "conhecido" deriva da minha lembrança de ter sido avisado sobre isso no manual do software Systat c. 1989. Era um manual muito instrutivo (a maioria escrito pessoalmente por Leland Wilkinson , o desenvolvedor) e provavelmente ainda é. O manual está online, mas você precisa se registrar no site da Systat para poder fazer o download.
whuber

2

É inteiramente possível:

  • Um ou mais testes t pareados são significativos, mas o teste F geral não é
  • O teste F geral é significativo, mas nenhum teste t pareado é

O teste F geral testa todos os contrastes simultaneamente . Como tal, deve ser menos sensível (menos poder estatístico) aos contrastes individuais (por exemplo: um teste em pares). Os dois testes estão intimamente relacionados uns aos outros, mas eles são não relatar exatamente a mesma coisa.

Como você pode ver, a recomendação do livro de não fazer comparações planejadas, a menos que o teste F geral seja significativo, nem sempre está correta. De fato, a recomendação pode nos impedir de encontrar diferenças significativas porque o teste F geral tem menos poder do que as comparações planejadas para testar as diferenças específicas.


Não sei se sigo a lógica da sua resposta. Você está dizendo que a rejeição de H0 por um teste F implica que há pelo menos um contraste diferente de zero, mas esse contraste pode não corresponder a nenhuma das comparações pareadas? Nesse caso, isso significa que, se um teste F rejeitar H0, pelo menos um dos testes aos pares em todos os contrastes possíveis também levará a uma rejeição?
Ameba diz Reinstate Monica

@amoeba Eu editei minha resposta.
SmallChess
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.