R em ação (Kabacoff, 2011) sugere a seguinte rotina para testar sobredispersão em uma regressão logística:
Ajuste a regressão logística usando distribuição binomial:
model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
family=binomial(), data=iris)
Ajuste a regressão logística usando distribuição quase-binomial:
model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width,
family=quasibinomial(), data=iris)
Use o qui-quadrado para testar a sobredispersão:
pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual,
model_binom$df.residual, lower = F)
# [1] 0.7949171
Alguém poderia explicar como e por que a distribuição qui-quadrado está sendo usada para testar aqui a sobredispersão? O valor p é 0,79 - como isso mostra que a super-dispersão não é um problema no modelo de distribuição binomial?