Gostaria de testar em que regressão se encaixa melhor nos meus dados. Minha variável dependente é uma contagem e possui muitos zeros.
E eu precisaria de ajuda para determinar qual modelo e família usar (poisson ou quasipoisson ou regressão de poisson inflada a zero) e como testar as suposições.
- Regressão de Poisson: até onde eu entendo, a forte suposição é que a variável dependente média = variância. Como você testa isso? Quão próximos eles devem estar? A média e a variação incondicionais ou condicionais são usadas para isso? O que faço se essa suposição não se mantiver?
- Li que, se a variância for maior que a média, temos sobredispersão, e uma maneira potencial de lidar com isso é incluir variáveis mais independentes, ou família = quaseipoisson. Essa distribuição tem outros requisitos ou suposições? Que teste eu uso para ver se (1) ou (2) se encaixa melhor - simplesmente
anova(m1,m2)
? - Também li que a distribuição binomial negativa pode ser usada quando a sobredispersão aparece. Como faço isso em R? Qual é a diferença para quasipoisson?
Regressão de Poisson inflada a zero: Li que o teste vuong verifica quais modelos se encaixam melhor.
> vuong (model.poisson, model.zero.poisson)
Isso está correto? Que suposições tem uma regressão inflada a zero?
Os Serviços de Tecnologia Acadêmica da UCLA, o Statistical Consulting Group, têm uma seção sobre regressões de Poisson infladas a zero e testam o modelo com inflação zero (a) em relação ao modelo de poisson padrão (b):
> m.a <- zeroinfl(count ~ child + camper | persons, data = zinb)
> m.b <- glm(count ~ child + camper, family = poisson, data = zinb)
> vuong(m.a, m.b)
Não entendo o que a | persons
parte do primeiro modelo faz e por que você pode comparar esses modelos. Eu esperava que a regressão fosse a mesma e apenas usasse uma família diferente.