Respostas:
De fato, a regressão linear modela os valores condicionais esperados do seu resultado. Isso significa: se você soubesse os valores reais dos parâmetros de regressão (digamos e β 1 ), dado um valor do seu preditor X, preenchendo-o na equação E [ Y | X ] = β 0 + β 1 X vai fazer com que o cálculo do valor esperado para Y sobre todos os possíveis () observações que têm esse valor dado para X .
No entanto: você realmente não espera que nenhum valor único para esse valor X seja exatamente igual à média (condicional). Não porque seu modelo esteja errado, mas porque existem alguns efeitos que você não considerou (por exemplo, erro de medição). Portanto, esses valores Y para um dado valor X flutuam em torno do valor médio (ou seja, geometricamente: em torno do ponto da linha de regressão para esse X ).
A suposição de normalidade, agora, diz que a diferença entre os e seus pares E [ Y | X ] segue uma distribuição normal com média zero. Isso significa que, se você tiver um valor X , poderá obter uma amostra de um valor Y calculando primeiro β 0 + β 1 X (ou seja, novamente E [ Y | X ] , o ponto na linha de regressão), próxima amostragem ϵ a partir do normal distribuição e adição: Y ′ = E [ Y | X
Resumindo: essa distribuição normal representa a variabilidade do resultado, além da variabilidade explicada pelo modelo.
Nota: na maioria dos conjuntos de dados, você não possui vários valores para um determinado X (a menos que seu conjunto de preditores seja categórico), mas essa normalidade se aplica a toda a população, não apenas às observações em seu conjunto de dados.
Nota: Fiz o raciocínio para a regressão linear com um preditor, mas o mesmo vale para mais: basta substituir "line" por "hyperplane" acima.
Pode significar muito ou não pode significar nada. Se você encaixa um modelo para obter o R-quadrado mais alto, isso pode significar que você foi tolo. Se você encaixa um modelo para ser parcimonioso, pois as variáveis são necessárias e necessárias e se preocupa em identificar discrepantes, você fez um bom trabalho. Dê uma olhada aqui para obter mais informações sobre este http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
A normalidade dos resíduos é uma suposição de executar um modelo linear. Portanto, se seus resíduos são normais, significa que sua suposição é válida e a inferência do modelo (intervalos de confiança, previsões do modelo) também deve ser válida. É simples assim!