Os resíduos são nossas estimativas dos termos de erro
A resposta curta a essa pergunta é relativamente simples: as suposições em um modelo de regressão são suposições sobre o comportamento dos termos de erro e os resíduos são nossas estimativas dos termos de erro. Ipso facto , o exame do comportamento dos resíduos observados nos diz se as suposições sobre os termos do erro são plausíveis.
Para entender essa linha geral de raciocínio com mais detalhes, é útil examinar em detalhes o comportamento dos resíduos em um modelo de regressão padrão. Sob uma regressão linear múltipla padrão com termos de erro normal homosquástico independente, a distribuição do vetor residual é conhecida, o que permite testar as premissas distributivas subjacentes no modelo de regressão. A idéia básica é que você descubra a distribuição do vetor residual sob as premissas da regressão e verifique se os valores residuais correspondem plausivelmente a essa distribuição teórica. Os desvios da distribuição residual teórica mostram que a distribuição assumida subjacente dos termos de erro está errada em alguns aspectos.
Se você usar a distribuição de erro subjacente para um modelo de regressão padrão e usar a estimativa OLS para os coeficientes, a distribuição dos resíduos poderá ser mostrada como a distribuição normal multivariada:ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
onde é a matriz do chapéu para a regressão. O vetor residual imita o vetor de erro, mas a matriz de variância possui o termo multiplicativo adicional . Para testar as premissas de regressão, usamos os resíduos estudados, que têm distribuição T marginal:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Esta fórmula é para os resíduos estudados externamente, em que o estimador de variância exclui a variável em consideração. Os valores são os valores de alavancagem, que são os valores diagonais na matriz do chapéu . Os resíduos estudados não são independente, mas se for grande, elas são próximas de independentes, o que significa que a distribuição marginal é uma distribuição conhecida simples, mas a distribuição conjunta é complicada.) Agora, se o limite existe, então pode ser demonstrado que os estimadores de coeficiente são estimadores consistentes dos verdadeiros coeficientes de regressão e os resíduos são estimadores consistentes do termos de erro verdadeiros.li=hi,inlimn→∞(xTx)/n=Δ
Essencialmente, isso significa que você testa as premissas distributivas subjacentes para os termos de erro comparando os resíduos estudados com a distribuição T. Cada uma das propriedades subjacentes da distribuição de erros (linearidade, homocedasticidade, erros não correlacionados, normalidade) pode ser testada usando as propriedades análogas da distribuição dos resíduos estudados. Se o modelo for especificado corretamente, para grandes, os resíduos devem estar próximos dos termos de erro reais e têm uma forma distributiva semelhante.n
A omissão de uma variável explicativa do modelo de regressão leva ao viés variável omitido nos estimadores de coeficiente e isso afeta a distribuição residual. Tanto a média quanto a variância do vetor residual são afetadas pela variável omitida. Se os termos omitidos na regressão forem , o vetor residual se tornará . Se os vetores de dados na matriz omitida forem vetores normais do IID e independentes dos termos de erro,Zδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) para que a distribuição residual se torne:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Se já houver um termo de interceptação no modelo (ou seja, se o vetor de unidade estiver na matriz de design), então1(I−h)1=0, o que significa que a forma distributiva padrão dos resíduos é preservada. Se não houver termo de interceptação no modelo, a variável omitida poderá fornecer uma média diferente de zero para os resíduos. Como alternativa, se a variável omitida não for normal para o IID, poderá levar a outros desvios da distribuição residual padrão. Neste último caso, é improvável que os testes residuais detectem algo resultante da presença de uma variável omitida; geralmente não é possível determinar se os desvios da distribuição residual teórica ocorrem como resultado de uma variável omitida ou apenas por causa de uma relação incorreta com as variáveis incluídas (e, sem dúvida, essas são a mesma coisa em qualquer caso).