Que vantagens a regressão de Poisson tem sobre a regressão linear neste caso?


12

Recebi um conjunto de dados que contém o número de prêmios ganhos por alunos de uma escola secundária, onde os preditores do número de prêmios ganhos incluem o tipo de programa em que o aluno estava matriculado e a pontuação no exame final em matemática.

Fiquei me perguntando se alguém poderia me dizer por que um modelo de regressão linear pode ser inadequado nesse caso e por que seria melhor usar uma regressão de Poisson? Obrigado.

Respostas:


14

Três pontos sobre a regressão de Poisson x Normal, todos relativos à especificação do modelo:

Efeito das mudanças nos preditores

Com um preditor contínuo como a pontuação do teste de matemática, a regressão de Poisson (com o link de log usual) implica que uma alteração de unidade no preditor leva a uma alteração percentual no número de prêmios, ou seja, mais 10 pontos no teste de matemática estão associados a, por exemplo, 25% mais prêmios. Isso depende do número de prêmios que o aluno já está previsto. Por outro lado, a regressão normal associa mais 10 pontos a um valor fixo, digamos mais 3 prêmios em todas as circunstâncias. Você deve estar satisfeito com essa suposição antes de usar o modelo que a cria. (fwiw eu acho que é muito razoável, módulo o próximo ponto.)

Lidar com alunos sem prêmios

A menos que haja realmente muitos prêmios distribuídos por muitos estudantes, sua contagem de prêmios será geralmente bastante baixa. Na verdade, eu previa inflação zero, ou seja, a maioria dos estudantes não recebe nenhum prêmio, então muitos zeros e alguns bons alunos recebem alguns prêmios. Isso mexe com as suposições do modelo de Poisson e é pelo menos tão ruim quanto o modelo normal.

Se você tiver uma quantidade razoável de dados, um modelo 'inflado a zero' ou 'obstáculo' seria natural. São dois modelos interligados: um para prever se o aluno recebe algum prêmio e outro para prever quantos ela recebe, se recebe algum (geralmente alguma forma de modelo de Poisson). Eu esperaria que toda a ação estivesse no primeiro modelo.

Exclusividade do prêmio

Finalmente, um pequeno ponto sobre prêmios. Se os prêmios são exclusivos, ou seja, se um aluno recebe o prêmio e nenhum outro aluno pode receber o prêmio, seus resultados são acoplados; uma contagem para o aluno a diminui a contagem possível de todas as outras. Se vale a pena se preocupar com isso depende da estrutura dos prêmios e do tamanho da população estudantil. Eu o ignoraria em um primeiro passo.

Em conclusão, Poisson domina confortavelmente o Normal, exceto por contagens muito grandes, mas verifique as suposições do Poisson antes de se apoiar fortemente em inferência e esteja preparado para passar para uma classe de modelo um pouco mais complexa, se necessário.


9

A regressão de Poisson seria mais adequada nesse caso, porque sua resposta é a contagem de alguma coisa.

λ

λλ

A regressão linear normal assume erros normais em torno da média e, portanto, os pesa igualmente. Isso diz que, se um aluno tem um número esperado de prêmios de 1, é tão provável que receba -2 prêmios quanto receba três prêmios: isso é claramente um absurdo e o que o poisson é construído para tratar.


8

em(umaWumards+0,5)

Além disso, à medida que o número esperado de prêmios se torna muito grande, o OLS deve ter um desempenho melhor pelos motivos descritos pelo @Corone. No lago Wobegon , o OLS é o caminho a percorrer.

Se o número esperado for baixo, com muitos zeros, eu usaria o Poisson com erros padrão robustos sobre o modelo binomial negativo. A regressão NB faz fortes suposições sobre a variação que aparece nas condições de primeira ordem que produzem os coeficientes. Se essas premissas não forem atendidas, os próprios coeficientes podem estar contaminados. Esse não é o caso do Poisson.


4

λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

mostra uma assimetria de 0,31, que é bem próxima de 0.

Também gosto dos pontos de @conjugateprior. Na minha experiência, é raro a regressão de Poisson se encaixar bem; Normalmente, acabo usando um modelo binomial negativo ou um modelo inflado a zero.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.