Razão de Verossimilhança vs Teste de Wald

10

Pelo que tenho lido, entre outros no site do grupo de consultoria de estatística da UCLA, os testes de razão de verossimilhança e testes de wald são bastante semelhantes ao testar se dois modelos de glm mostram uma diferença significativa na adequação de um conjunto de dados (desculpe-me se minha redação pode estar um pouco errado). Em essência, posso comparar dois modelos e testar se o segundo modelo apresenta um ajuste significativamente melhor que o primeiro, ou se não há diferença entre os modelos.

Portanto, os testes LR e Wald devem mostrar os mesmos valores de p para os mesmos modelos de regressão. Pelo menos a mesma conclusão deve sair.

Agora eu fiz os dois testes para o mesmo modelo em R e obtive resultados bastante diferentes. Aqui estão os resultados de R para um modelo:

> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   2 -89.808                         
    2   9 -31.625  7 116.37  < 2.2e-16 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    > lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
      #Df  LogLik Df  Chisq Pr(>Chisq)    
    1   1 -54.959                         
    2   9 -31.625  8 46.667  1.774e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    > waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
      Res.Df Df      F Pr(>F)
    1     45                 
    2     53 -8 0.7398 0.6562
    > waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test

Model 1: data$y ~ 1
    Model 2: data$y ~ data$site_name
  Res.Df Df      F Pr(>F)
1     53                 
2     45  8 0.7398 0.6562

Sobre os dados, os dados $ y contêm dados de contagem e os dados $ site_name são um fator com 9 níveis. Existem 54 valores nos dados $ y, com 6 valores por nível de dados $ site_name.

Aqui estão as distribuições de frequência:

> table(data$y)

 0  2  4  5  7 
50  1  1  1  1 
> table(data$y,data$site_name)

    Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
  0       6        6     6                          4        6             6            6             5              5
  2       0        0     0                          0        0             0            0             1              0
  4       0        0     0                          1        0             0            0             0              0
  5       0        0     0                          0        0             0            0             0              1
  7       0        0     0                          1        0             0            0             0              0

Agora, esses dados não se encaixam muito bem na distribuição de poisson devido à enorme dispersão excessiva das contagens zero. Mas com outro modelo, em que os dados $ y> 0 se encaixam muito bem no modelo de Poisson e, embora usando um modelo de Poisson inflado com zero, ainda recebo resultados de teste de Wald e teste de teste altamente diferentes. Lá, o teste wald mostra um valor p de 0,03 enquanto o teste lr tem um valor p 0,0003. Ainda há uma diferença de fator 100, mesmo que a conclusão possa ser a mesma.

Então, o que estou entendendo incorretamente aqui com a razão de verossimilhança vs waldtest?

r regression likelihood-ratio

— Dolf Andringa
fonte

15

É importante observar que, embora o teste da razão de verossimilhança e o teste de Wald sejam usados pelos pesquisadores para atingir os mesmos objetivos empíricos, eles estão testando hipóteses diferentes . O teste da razão de verossimilhança avalia se é provável que os dados tenham vindo de um modelo mais complexo versus um modelo mais simples. Dito de outra forma, a adição de um efeito específico permite que o modelo responda por mais informações. O teste de Wald, por outro lado, avalia se é provável que o efeito estimado possa ser zero. É uma diferença diferenciada, com certeza, mas uma diferença conceitual importante, no entanto.

Agresti (2007) contrasta o teste da razão de verossimilhança, o teste de Wald e um terceiro método chamado "teste de pontuação" (ele dificilmente detalha mais esse teste). De seu livro (p. 13):

Quando o tamanho da amostra é pequeno a moderado, o teste de Wald é o menos confiável dos três testes. Não devemos confiar n para um n tão pequeno como neste exemplo ( n = 10). A inferência da razão de verossimilhança e a inferência baseada no teste de pontuação são melhores em termos de probabilidades de erro reais próximas dos níveis nominais correspondentes. Uma divergência acentuada nos valores das três estatísticas indica que a distribuição do estimador de ML pode estar longe da normalidade. Nesse caso, métodos de amostra pequena são mais apropriados que métodos de amostra grande.

Olhando para seus dados e resultados, parece que você realmente tem uma amostra relativamente pequena e, portanto, pode querer colocar um estoque maior nos resultados do teste da razão de verossimilhança vs. resultados do teste de Wald.

Referências

Agresti, A. (2007). Uma introdução à análise de dados categóricos (2ª edição) . Hoboken, NJ: John Wiley & Sons.

— jsakaluk
fonte

O teste da razão de verossimilhança avalia se os dados provavelmente vieram de um modelo mais complexo, em comparação com um modelo mais simples. Certamente avalia a questão um pouco diferente: "qual modelo teria levado aos dados observados com a maior probabilidade"? Você parece ter descrito um fator Bayes ou algo parecido, o que requer informações sobre as probabilidades anteriores ... sim?

— Jake Westfall

Não é a diferença entre as duas perguntas contra o que o segundo modelo é testado? Se você faz um lr com y ~ 1 como modelo1 y ~ x como modelo2, então lr testa se os dados são mais prováveis de serem explicados por um modelo mais complexo (modelo2) ou mais simples (modelo1). Qual é o mesmo neste caso da pergunta "qual modelo é explicado com a maior probabilidade". Direita?

— Dolf Andringa 02/02

3

Os dois testes são assintoticamente equivalentes. Obviamente, seu desempenho (tamanho e potência) em amostras finitas pode diferir. O melhor que você pode fazer para entender a diferença é executar um estudo de Monte Carlo para uma configuração semelhante à sua.

— user4422
fonte

3

Primeiro, discordo um pouco da resposta de jsakaluk de que os dois testes estão testando coisas diferentes - ambos estão testando se o coeficiente no modelo maior é zero. Eles estão apenas testando essa hipótese fazendo diferentes aproximações (consulte o artigo com link abaixo).

Em relação às diferenças entre os resultados, como jsakaluk disse, isso provavelmente se deve ao pequeno tamanho da amostra / que a probabilidade do log está longe de ser quadrática. Eu escrevi uma postagem de blog em 2014 que passa por isso para um modelo binomial simples, que pode ajudar ainda mais: http://thestatsgeek.com/2014/02/08/wald-vs-likelihood-ratio-test/

— Jonathan Bartlett
fonte