Estou um pouco confuso sobre quais são os pressupostos da regressão linear.
Até agora, verifiquei se:
- todas as variáveis explicativas se correlacionaram linearmente com a variável resposta. (Esse foi o caso)
- houve colinearidade entre as variáveis explicativas. (houve pouca colinearidade).
- as distâncias de Cook dos pontos de dados do meu modelo estão abaixo de 1 (este é o caso, todas as distâncias estão abaixo de 0,4, portanto, não há pontos de influência).
- os resíduos são normalmente distribuídos. (pode não ser esse o caso)
Mas então eu li o seguinte:
as violações da normalidade geralmente surgem porque (a) as distribuições das variáveis dependentes e / ou independentes são elas próprias significativamente não normais e / ou (b) a suposição de linearidade é violada.
Pergunta 1 Isso soa como se as variáveis independentes e dependentes precisassem ser normalmente distribuídas, mas até onde eu sei, esse não é o caso. Minha variável dependente, bem como uma das minhas variáveis independentes, não são normalmente distribuídas. Eles deveriam ser?
Pergunta 2 Meu gráfico QQnormal dos resíduos fica assim:
Isso difere ligeiramente de uma distribuição normal e shapiro.test
também rejeita a hipótese nula de que os resíduos são de uma distribuição normal:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Os resíduos versus valores ajustados são parecidos com:
O que posso fazer se meus resíduos não forem normalmente distribuídos? Isso significa que o modelo linear é totalmente inútil?