O que significam resíduos normais e o que isso me diz sobre meus dados?

13

Pergunta bastante básica:

O que significa uma distribuição normal de resíduos de uma regressão linear? Em termos de, como isso se reflete nos meus dados originais da regressão?

Estou totalmente perplexo, obrigado pessoal

regression residuals

— smar
fonte

5

De fato, a regressão linear modela os valores condicionais esperados do seu resultado. Isso significa: se você soubesse os valores reais dos parâmetros de regressão (digamos e ), dado um valor do seu preditor X, preenchendo-o na equação vai fazer com que o cálculo do valor esperado para sobre todos os possíveis () observações que têm esse valor dado para . $\beta_0$ $\beta_1$

E [Y | X] = β_{0} + β_{1} X

$E[Y|X] = \beta_0 + \beta_1 X$

Y

$Y$

X

$X$

No entanto: você realmente não espera que nenhum valor único para esse valor seja exatamente igual à média (condicional). Não porque seu modelo esteja errado, mas porque existem alguns efeitos que você não considerou (por exemplo, erro de medição). Portanto, esses valores para um dado valor flutuam em torno do valor médio (ou seja, geometricamente: em torno do ponto da linha de regressão para esse ). $Y$ $X$ $Y$ $X$ $X$

A suposição de normalidade, agora, diz que a diferença entre os e seus pares segue uma distribuição normal com média zero. Isso significa que, se você tiver um valor , poderá obter uma amostra de um valor calculando primeiro (ou seja, novamente , o ponto na linha de regressão), próxima amostragem partir do normal distribuição e adição: $Y$ $E[Y|X]$ $X$ $Y$ $\beta_0 + \beta_1 X$ $E[Y|X]$ $\epsilon$

Y^{'} = E [Y | X] + ϵ

$Y'=E[Y|X] + \epsilon$

Resumindo: essa distribuição normal representa a variabilidade do resultado, além da variabilidade explicada pelo modelo.

Nota: na maioria dos conjuntos de dados, você não possui vários valores para um determinado (a menos que seu conjunto de preditores seja categórico), mas essa normalidade se aplica a toda a população, não apenas às observações em seu conjunto de dados. $Y$ $X$

Nota: Fiz o raciocínio para a regressão linear com um preditor, mas o mesmo vale para mais: basta substituir "line" por "hyperplane" acima.

— Nick Sabbe
fonte

Esta é uma ótima explicação! Porém, uma pergunta: e ser distribuído normalmente significa que você assume que os valores mais prováveis para e estão entre -1 e +1 (depois de padronizados)? Então, você basicamente usa uma distribuição normal em vez de, digamos, uma distribuição de poisson, porque a distribuição normal modela melhor como esses valores se comportam na vida real?

— user3813234

1

Pode significar muito ou não pode significar nada. Se você encaixa um modelo para obter o R-quadrado mais alto, isso pode significar que você foi tolo. Se você encaixa um modelo para ser parcimonioso, pois as variáveis são necessárias e necessárias e se preocupa em identificar discrepantes, você fez um bom trabalho. Dê uma olhada aqui para obter mais informações sobre este http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175

— Tom Reilly
fonte

0

A normalidade dos resíduos é uma suposição de executar um modelo linear. Portanto, se seus resíduos são normais, significa que sua suposição é válida e a inferência do modelo (intervalos de confiança, previsões do modelo) também deve ser válida. É simples assim!

— wcampbell
fonte

A suposição de normalidade é sobre erro não observável (daí a necessidade de uma suposição), não sobre resíduos observáveis.

— DL Dahly

2

Sim, mas você usa os resíduos para testar sua suposição sobre o erro não observável.

— Wcampbell 29/03

Não concordo que os resíduos normais garantam um modelo de regressão válido. Suponha que você tenha um modelo gaussiano circular com erro X e Y iguais. Então o intervalo de confiança da linha de regressão é

- \infty to \infty

$-\infty \text { to } \infty$ . Esse dificilmente é o único contra-exemplo, existem muitos mais.

— Carl