Estou tentando fazer um layout para mim mesmo quando é apropriado usar qual tipo de regressão (geométrico, Poisson, binomial negativo) com dados de contagem, dentro da estrutura GLM (apenas 3 das 8 distribuições GLM são usadas para dados de contagem, embora a maioria do que Eu li centros em torno das distribuições binomiais negativas e de Poisson).
Quando usar GLMs binomiais de Poisson vs. geométricos vs. negativos para dados de contagem?
Até agora, tenho a seguinte lógica: São dados de contagem? Se sim, a média e a variação são desiguais? Se sim, regressão binomial negativa. Se não, regressão de Poisson. Existe inflação zero? Se sim, Poisson inflado zero ou binomial negativo inflado zero.
Questão 1 Parece não haver uma indicação clara de qual usar quando. Existe algo para informar essa decisão? Pelo que entendi, uma vez que você alterna para o ZIP, a variância média, sendo a mesma suposição, fica mais relaxada, tornando-a muito semelhante ao NB novamente.
Questão 2 Onde a família geométrica se encaixa nessa ou em que tipo de perguntas devo perguntar sobre os dados ao decidir se devo usar uma família geométrica em minha regressão?
Questão 3 Vejo pessoas trocando as distribuições binomiais negativas e de Poisson o tempo todo, mas não geométricas, então acho que há algo bem diferente sobre quando usá-lo. Se assim for, o que é?
PS: Eu criei um diagrama (provavelmente simplificado, a partir dos comentários) ( editável ) do meu entendimento atual se as pessoas quisessem comentar / ajustá-lo para discussão.