A distribuição "padrão", a escolha mais usada e descrita, da distribuição de dados de contagem é a distribuição de Poisson . Na maioria das vezes, é ilustrado usando o exemplo de seu primeiro uso prático:
Uma aplicação prática dessa distribuição foi feita por Ladislaus Bortkiewicz em 1898, quando recebeu a tarefa de investigar o número de soldados do exército prussiano mortos acidentalmente por chutes a cavalo; esse experimento introduziu a distribuição de Poisson no campo da engenharia de confiabilidade.
A distribuição de Poisson é parametrizada pela taxa por intervalo de tempo fixo ( também é a média e a variância). Em caso de regressão, podemos usar a distribuição de Poisson no modelo linear generalizado com a função de link log-linearλλλ
E( Y| X, β) = λ = exp( β0 0+ β1 1X1 1+ ⋯ + βkXk)
isso é chamado de regressão de Poisson , pois podemos assumir que é uma taxa de distribuição de Poisson. Observe, no entanto, que, para a regressão log-linear, você não precisa fazer essa suposição e simplesmente usar o GLM com o link de log com dados não contados. Ao interpretar os parâmetros, é necessário lembrar que, devido ao uso da transformação de log, as alterações na variável independente resultam em alterações multiplicativas nas contagens previstas.λ
O problema com o uso da distribuição de Poisson para os dados da vida real é que ele assume que a média é igual à variação. A violação dessa suposição é chamada de superdispersão . Nesses casos, você sempre pode usar o modelo quase-Poisson , modelo log-linear não-Poisson (para contagens grandes, Poisson pode ser aproximado por distribuição normal), regressão binomial negativa (intimamente relacionada a Poisson; veja Berk e MacDonald, 2008) ou outros modelos, conforme descrito por Stephan Kolassa .
Para uma introdução amigável à regressão de Poisson, você também pode conferir artigos de Lavery (2010) ou Coxe, West e Aiken (2009).
Lavery, R. (2010). Um guia animado: uma introdução à regressão de Poisson. Papel NESUG, sa04.
Coxe, S., West, SG, & Aiken, LS (2009). A análise dos dados de contagem: uma introdução suave à regressão de Poisson e suas alternativas. Jornal de avaliação da personalidade, 91 (2), 121-136.
Berk, R. e MacDonald, JM (2008). Sobredispersão e regressão de Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.