Teste de sobredispersão em regressão logística

R em ação (Kabacoff, 2011) sugere a seguinte rotina para testar sobredispersão em uma regressão logística:

Ajuste a regressão logística usando distribuição binomial:

model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
                   family=binomial(), data=iris)

Ajuste a regressão logística usando distribuição quase-binomial:

model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, 
                           family=quasibinomial(), data=iris)

Use o qui-quadrado para testar a sobredispersão:

pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, 
       model_binom$df.residual, lower = F)
# [1] 0.7949171

Alguém poderia explicar como e por que a distribuição qui-quadrado está sendo usada para testar aqui a sobredispersão? O valor p é 0,79 - como isso mostra que a super-dispersão não é um problema no modelo de distribuição binomial?

— luciano
fonte

É muito difícil não se ajustar à distribuição de Bernoulli, a menos que você tenha observações correlacionadas. E o ajuste que você suspeita ser inadequado?

— Frank Harrell

Por observações correlatas, você quer dizer que cada estudo de Bernoulli não é independente?

— luciano 26/03

Sim, por exemplo, correlação serial ou dentro do cluster; ensaios não independentes.

— Frank Harrell

A abordagem descrita requer cálculos desnecessários. A estatística do teste é apenas

sum(residuals(model_binom, type = "deviance")^2)

Isso é exatamente igual à estatística do teste de Pearson por falta de ajuste, portanto, possui distribuição qui-quadrado. $\chi^2$

A super-dispersão, como tal, não se aplica aos dados de Bernoulli. Um grande valor de pode indicar falta de covariáveis ou poderes, termos de interações ou dados devem ser agrupados. Um valor p de 0,79 indica que o teste falhou em encontrar problemas. $\chi^2$

— olé
fonte

A resposta acima não deve ser modificada da seguinte maneira? sum(residuals(model_binom, type = "deviance")^2)/model_binom$df.residual

— Steve VW