O que significam resíduos normais e o que isso me diz sobre meus dados?


13

Pergunta bastante básica:

O que significa uma distribuição normal de resíduos de uma regressão linear? Em termos de, como isso se reflete nos meus dados originais da regressão?

Estou totalmente perplexo, obrigado pessoal

Respostas:


5

De fato, a regressão linear modela os valores condicionais esperados do seu resultado. Isso significa: se você soubesse os valores reais dos parâmetros de regressão (digamos e β 1 ), dado um valor do seu preditor X, preenchendo-o na equação E [ Y | X ] = β 0 + β 1 X vai fazer com que o cálculo do valor esperado para Y sobre todos os possíveis () observações que têm esse valor dado para X .β0β1

E[Y|X]=β0+β1X
YX

No entanto: você realmente não espera que nenhum valor único para esse valor X seja exatamente igual à média (condicional). Não porque seu modelo esteja errado, mas porque existem alguns efeitos que você não considerou (por exemplo, erro de medição). Portanto, esses valores Y para um dado valor X flutuam em torno do valor médio (ou seja, geometricamente: em torno do ponto da linha de regressão para esse X ).YXYXX

A suposição de normalidade, agora, diz que a diferença entre os e seus pares E [ Y | X ] segue uma distribuição normal com média zero. Isso significa que, se você tiver um valor X , poderá obter uma amostra de um valor Y calculando primeiro β 0 + β 1 X (ou seja, novamente E [ Y | X ] , o ponto na linha de regressão), próxima amostragem ϵ a partir do normal distribuição e adição: Y = E [ Y | XYE[Y|X]XYβ0 0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

Resumindo: essa distribuição normal representa a variabilidade do resultado, além da variabilidade explicada pelo modelo.

Nota: na maioria dos conjuntos de dados, você não possui vários valores para um determinado X (a menos que seu conjunto de preditores seja categórico), mas essa normalidade se aplica a toda a população, não apenas às observações em seu conjunto de dados.YX

Nota: Fiz o raciocínio para a regressão linear com um preditor, mas o mesmo vale para mais: basta substituir "line" por "hyperplane" acima.


Esta é uma ótima explicação! Porém, uma pergunta: e ser distribuído normalmente significa que você assume que os valores mais prováveis ​​para e estão entre -1 e +1 (depois de padronizados)? Então, você basicamente usa uma distribuição normal em vez de, digamos, uma distribuição de poisson, porque a distribuição normal modela melhor como esses valores se comportam na vida real?
user3813234

1

Pode significar muito ou não pode significar nada. Se você encaixa um modelo para obter o R-quadrado mais alto, isso pode significar que você foi tolo. Se você encaixa um modelo para ser parcimonioso, pois as variáveis ​​são necessárias e necessárias e se preocupa em identificar discrepantes, você fez um bom trabalho. Dê uma olhada aqui para obter mais informações sobre este http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175


0

A normalidade dos resíduos é uma suposição de executar um modelo linear. Portanto, se seus resíduos são normais, significa que sua suposição é válida e a inferência do modelo (intervalos de confiança, previsões do modelo) também deve ser válida. É simples assim!


A suposição de normalidade é sobre erro não observável (daí a necessidade de uma suposição), não sobre resíduos observáveis.
DL Dahly

2
Sim, mas você usa os resíduos para testar sua suposição sobre o erro não observável.
Wcampbell 29/03

Não concordo que os resíduos normais garantam um modelo de regressão válido. Suponha que você tenha um modelo gaussiano circular com erro X e Y iguais. Então o intervalo de confiança da linha de regressão é- para . Esse dificilmente é o único contra-exemplo, existem muitos mais.
Carl
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.