Regressão de Poisson vs. regressão de mínimos quadrados com contagem de logarítmos?


21

Uma regressão de Poisson é um GLM com uma função de log-link.

Uma maneira alternativa de modelar dados de contagem distribuídos de maneira não-normal é pré-processar usando o log (ou melhor, log (1 + count) para manipular zeros). Se você fizer uma regressão de mínimos quadrados nas respostas de contagem de log, isso está relacionado a uma regressão de Poisson? Ele pode lidar com fenômenos semelhantes?


6
Como você planeja obter logaritmos de qualquer contagem que seja zero?
whuber

3
Definitivamente não é equivalente. Uma maneira fácil de ver isso é ver o que aconteceria se você observasse a contagem zero. (Comentário criado antes de ver o comentário de @ whuber. Aparentemente, esta página não foi atualizada adequadamente no meu navegador.) #
cardeal

OK, obviamente, devo dizer, log (1 + contagem). Obviamente não é equivalente, mas querendo saber se havia um relacionamento ou se eles podem lidar com fenômenos semelhantes.
Brendan OConnor 21/03

1
Há uma discussão útil sobre esse problema aqui: blog.stata.com/2011/08/22/…
Michael Bishop

Respostas:


22

Por um lado, em uma regressão de Poisson, o lado esquerdo da equação do modelo é o logaritmo da contagem esperada: .registro(E[Y|x])

Por outro lado, em um modelo linear "padrão", o lado esquerdo é o valor esperado da variável de resposta normal: . Em particular, a função de link é a função de identidade.E[Y|x]

Agora, digamos que é uma variável de Poisson e que você pretende normalizá-la usando o log: . Como deveria ser normal, você planeja ajustar o modelo linear padrão para o qual o lado esquerdo é . Mas, em geral, . Como conseqüência, essas duas abordagens de modelagem são diferentes.YY=registro(Y)YE[Y|x]=E[log(Y)|x]E[log(Y)|x]log(E[Y|x])


6
Na verdade, sempre, a menos que para alguns -mensurável função , isto é, é completamente determinada por . E(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
cardinal

@cardeal. Muito bem colocado.
suncoolsu

9

Eu vejo duas diferenças importantes.

Primeiro, os valores previstos (na escala original) se comportam de maneira diferente; nos mínimos quadrados loglineares representam médias geométricas condicionais; no modelo log-poisson, representam médias condicionais. Como os dados nesse tipo de análise geralmente são inclinados para a direita, a média geométrica condicional subestima a média condicional.

Uma segunda diferença é a distribuição implícita: lognormal versus poisson. Isso se refere à estrutura de heterocedasticidade dos resíduos: variação residual proporcional aos valores esperados ao quadrado (lognormal) versus variação residual proporcional ao valor esperado (Poisson).


-1

Uma diferença óbvia é que a regressão de Poisson produzirá números inteiros como previsões pontuais, enquanto a regressão linear de contagem de log pode produzir números não inteiros.


12
Como isso funciona? O GLM não estima expectativas , que não são necessariamente integrais?
whuber

1
Isso é falso. Mecanicamente, as regressões de Poisson são perfeitamente capazes de lidar com não-inteiros. Os erros padrão não serão distribuídos por poisson, mas você pode usar apenas erros padrão robustos.
Mateus
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.