Entendo que, para determinados conjuntos de dados, como a votação, ele tem um desempenho melhor. Por que a regressão de Poisson é usada sobre regressão linear comum ou regressão logística? Qual é a motivação matemática para isso?
Entendo que, para determinados conjuntos de dados, como a votação, ele tem um desempenho melhor. Por que a regressão de Poisson é usada sobre regressão linear comum ou regressão logística? Qual é a motivação matemática para isso?
Respostas:
Os dados distribuídos de Poisson são intrinsecamente com valor inteiro, o que faz sentido para os dados de contagem. Os Mínimos Quadrados Ordinários (OLS, que você chama de "regressão linear") assumem que os valores verdadeiros são normalmente distribuídos em torno do valor esperado e podem assumir qualquer valor real, positivo ou negativo, inteiro ou fracionário, qualquer que seja. Por fim, a regressão logística funciona apenas para dados com valor de 0-1 (valor VERDADEIRO-FALSO), como "tem uma doença" versus "não tem a doença". Assim, a distribuição de Poisson faz mais sentido para os dados de contagem.
Dito isto, uma distribuição normal costuma ser uma boa aproximação de uma Poisson para dados com média acima de 30. E em uma estrutura de regressão, na qual você tem preditores que influenciam a contagem, um OLS com sua distribuição normal pode ser mais fácil de ajustar e seria realmente mais geral, pois a distribuição e a regressão de Poisson assumem que a média e a variância são iguais, enquanto o OLS pode lidar com médias e variações desiguais - para um modelo de dados de contagem com diferentes médias e variações, pode-se usar uma distribuição binomial negativa , por exemplo.
Essencialmente, é porque a regressão linear e logística faz os tipos errados de suposições sobre como são os resultados da contagem. Imagine seu modelo como um robô muito estúpido que seguirá implacavelmente suas ordens, não importa quão absurdas sejam essas ordens; falta completamente a capacidade de avaliar o que você diz. Se você disser ao seu robô que algo como votos é distribuído continuamente de infinito negativo para infinito, é assim que ele acredita que os votos são e pode fornecer previsões sem sentido (Ross Perot receberá -10.469 votos na próxima eleição).
Por outro lado, a distribuição de Poisson é discreta e positiva (ou zero ... zero conta como positivo, sim?). No mínimo, isso forçará o seu robô a dar respostas que podem realmente acontecer na vida real. Eles podem ou não ser boas respostas, mas serão pelo menos extraídos do conjunto possível de "número de votos expressos".
Obviamente, o Poisson tem seus próprios problemas: assume que a média da variável de contagem de votos também será a mesma que sua variação. Não sei se já vi um exemplo não inventado em que isso era verdade. Felizmente, as pessoas brilhantes criaram outras distribuições que também são positivas e discretas, mas que adicionam parâmetros para permitir que a variação varie, er, varie (por exemplo, regressão binomial negativa).
Através desse método e do método de máxima verossimilhança e modelos lineares generalizados (ou algum outro método), você chega à regressão de Poisson .
Em termos simples, a regressão de Poisson é o modelo que se ajusta às suposições do processo aleatório subjacente, gerando um pequeno número de eventos a uma taxa (ou seja, número por unidade de tempo) determinada por outras variáveis no modelo.
Outros disseram basicamente a mesma coisa que eu vou, mas pensei em acrescentar minha opinião. Depende do que você está fazendo exatamente, mas muitas vezes gostamos de conceituar o problema / dados em questão. Essa é uma abordagem um pouco diferente em comparação à criação de um modelo que prediz muito bem. Se estamos tentando conceituar o que está acontecendo, faz sentido modelar dados de contagem usando uma distribuição não negativa que apenas coloca massa em valores inteiros. Também temos muitos resultados que se resumem a dizer que, sob certas condições, a contagem de dados é realmentedistribuído como um poisson. Portanto, se nosso objetivo é conceituar o problema, realmente faz sentido usar um poisson como variável de resposta. Outros apontaram outras razões pelas quais é uma boa ideia, mas se você está realmente tentando conceituar o problema e realmente entender como os dados que você vê podem ser gerados, usar uma regressão de Poisson faz muito sentido em algumas situações.
Meu entendimento é principalmente porque as contagens são sempre positivas e discretas, o Poisson pode resumir esses dados com um parâmetro. O principal problema é que a variação é igual à média.