Estou tentando ajustar uma regressão para explicar o número de homicídios em cada distrito de uma cidade. Embora eu saiba que meus dados seguem uma distribuição Poisson, tentei ajustar um OLS como este:
Então, eu também tentei (é claro!) Uma regressão de Poisson. O problema é que têm melhores resultados na regressão OLS: o pseudo- é superior (0,71 contra 0,57) e o RMSE, bem como (3,8 vs 8,88 Padronizado para ter a mesma unidade.).
Por quê? Isso é normal? O que há de errado em usar o OLS, independentemente da distribuição dos dados?
edit Seguindo as sugestões de kjetil b halvorsen e outros, ajustei os dados através de dois modelos: OLS e GLM binomial negativo (NB). Comecei com todos os recursos que possuo, depois removi recursivamente um por um os que não eram significativos. OLS é
com pesos = .
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
O RN prevê o número de crimes, com a área do distrito compensada.
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
Resíduos de OLS:
Resíduos NB
Portanto, o RMSE é mais baixo no OLS, mas parece que os resíduos não são tão normais ....