Quão incorreto é um modelo de regressão quando as suposições não são atendidas?

Ao ajustar um modelo de regressão, o que acontece se as suposições das saídas não forem atendidas, especificamente:

O que acontece se os resíduos não forem homocedásticos? Se os resíduos mostrarem um padrão crescente ou decrescente na plotagem Residuais vs. Ajustados.
O que acontece se os resíduos não forem normalmente distribuídos e falharem no teste de Shapiro-Wilk? O teste de normalidade de Shapiro-Wilk é um teste muito rigoroso e, às vezes, mesmo que o gráfico de QQ normal pareça um tanto razoável, os dados falham no teste.
O que acontece se um ou mais preditores não são normalmente distribuídos, não parecem corretos no gráfico de QQ normal ou se os dados falham no teste de Shapiro-Wilk?

Entendo que não existe uma divisão rígida em preto e branco, que 0,94 está certo e 0,95 está errado, e na pergunta, quero saber:

O que significa falhar na normalidade para um modelo que seja adequado de acordo com o valor do R-quadrado. Torna-se menos confiável ou completamente inútil?
Até que ponto, o desvio é aceitável ou é aceitável?
Ao aplicar transformações nos dados para atender aos critérios de normalidade, o modelo melhora se os dados forem mais normais (valor P mais alto no teste de Shapiro-Wilk, melhor visualização no gráfico QQ normal) ou são inúteis (igualmente bons ou ruim em comparação com o original) até que os dados passem no teste de normalidade?

— SpeedBirdNine
fonte

Eu acho que a resposta apenas ao título é "Sim".

— Thomas Cleberg

@ThomasCleberg Resposta interessante. É isso que você também diz quando as pessoas perguntam "como vai você?" :)

— JohnK

Não, mas é se eles me perguntarem se estou vivo. :)

— Thomas Cleberg

Uma pergunta básica a ser feita: "Para que você deseja usar o modelo de regressão?"

— Floris

O que acontece se os resíduos não forem homocedásticos? Se os resíduos mostrarem um padrão crescente ou decrescente na plotagem Residuais vs. Ajustados.

Se o termo de erro não for homoscedástico (usamos os resíduos como proxy para o termo de erro não observável), o estimador OLS ainda é consistente e imparcial, mas não é mais o mais eficiente na classe de estimadores lineares. Agora é o estimador GLS que desfruta dessa propriedade.

O que acontece se os resíduos não forem normalmente distribuídos e falharem no teste de Shapiro-Wilk? O teste de normalidade de Shapiro-Wilk é um teste muito rigoroso e, às vezes, mesmo que o gráfico de QQ normal pareça um tanto razoável, os dados falham no teste.

A normalidade não é exigida pelo teorema de Gauss-Markov. O estimador OLS ainda é AZUL, mas sem normalidade, você terá dificuldade em fazer inferência, ou seja, testes de hipóteses e intervalos de confiança, pelo menos para tamanhos finitos de amostras. Ainda existe o bootstrap, no entanto.

Assintoticamente, isso é menos problemático, uma vez que o estimador OLS tem uma distribuição normal limitante sob condições de regularidade moderada.

O que acontece se um ou mais preditores não são normalmente distribuídos, não parecem corretos no gráfico de QQ normal ou se os dados falham no teste de Shapiro-Wilk?

Tanto quanto sei, os preditores são considerados fixos ou a regressão depende deles. Isso limita o efeito de não normalidade.

O que significa falhar na normalidade para um modelo que seja adequado de acordo com o valor do R-quadrado. Torna-se menos confiável ou completamente inútil?

O R-quadrado é a proporção da variação explicada pelo modelo. Não requer a suposição de normalidade e é uma medida da qualidade do ajuste, independentemente. Se você quiser usá-lo para um teste F parcial, isso é outra história.

Até que ponto, o desvio é aceitável ou é aceitável?

Desvio da normalidade, certo? Realmente depende dos seus objetivos, porque, como eu disse, a inferência se torna difícil na ausência de normalidade, mas não é impossível (inicialização!).

Ao aplicar transformações nos dados para atender aos critérios de normalidade, o modelo melhora se os dados forem mais normais (valor P mais alto no teste de Shapiro-Wilk, melhor visualização no gráfico QQ normal) ou são inúteis (igualmente bons ou ruim em comparação com o original) até que os dados passem no teste de normalidade?

Em suma, se você tiver todas as suposições de Gauss-Markov mais a normalidade, o estimador OLS é o Melhor Não-enviesado (BUE), ou seja, o mais eficiente em todas as classes de estimadores - o Limite Inferior de Cramer-Rao é atingido. Isso é desejável, é claro, mas não é o fim do mundo se isso não acontecer. As observações acima se aplicam.

Com relação às transformações, lembre-se de que, embora a distribuição da resposta possa ser aproximada da normalidade, a interpretação pode não ser direta posteriormente.

Estas são apenas algumas respostas curtas para suas perguntas. Você parece estar particularmente preocupado com as implicações da não normalidade. No geral, eu diria que não é tão catastrófico como as pessoas (foram feitas para?) Acreditar e existem soluções alternativas. As duas referências que incluí são um bom ponto de partida para uma leitura mais aprofundada, sendo a primeira de natureza teórica.

Referências :

Hayashi, Fumio. : "Econometria", Princeton University Press, 2000

Kutner, Michael H., et al. "Modelos estatísticos lineares aplicados", McGraw-Hill Irwin, 2005.

— JohnK
fonte

Y

$Y$

X_{i}

$X_i$

β_{i}

$\beta_i$

y

$\mathbf{y}$

β_{i}

$\beta_i$

β_{i}

$\beta_i$

Y

$Y$

Y_{1}, \dots, Y_{n}

$Y_1,\ldots,Y_n$

@DeltaIV O que você quer dizer com "modelo ideal"? É o verdadeiro modelo que é linear nos parâmetros. Isso não nos restringe, no entanto, ao considerar como estimadores apenas funções lineares da resposta. O GM declara que, se restringirmos nossa atenção em funções lineares da resposta, o OLS será AZUL sob algumas suposições adicionais. Agora, se assumirmos a normalidade também, não importa qual a função da resposta que você está considerando , você simplesmente não pode fazer melhor que o OLS, desde que o estimador seja imparcial.

— JohnK

Y_{i}

$Y_i$

β_{i}

$\beta_i$