10

Suponha que tenhamos um modelo . $Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i$

A regressão tem várias suposições, como que os erros devem ser normalmente distribuídos com zero médio e variação constante. Fui ensinado a verificar essas suposições usando um gráfico QQ normal para testar a normalidade dos resíduos e um gráfico resíduos versus para verificar se os resíduos variam em torno de zero com variação constante. $\epsilon_i$ $e_i = Y_i - \hat{Y}_i$

No entanto, esses testes são todos sobre resíduos, não sobre erros.

Pelo que entendi, os erros são definidos como o desvio de cada observação de seu valor médio "verdadeiro". Então, podemos escrever . Esses erros não podem ser observados por nós. * $\epsilon_i = Y_i - \mathbb{E}[Y_i]$

Minha pergunta é a seguinte: quão bom é o trabalho dos resíduos em imitar os erros?

Se as suposições parecem satisfeitas com os resíduos, isso significa que elas também estão satisfeitas com os erros? Existem outras (melhores) maneiras de testar as suposições, como ajustar o modelo a um conjunto de dados de teste e obter os resíduos a partir daí?

* Além disso, isso não requer que o modelo seja especificado corretamente ? Ou seja, que a resposta realmente tem um relacionamento com os preditores etc. da maneira especificada pelo modelo. $X_1, X_2,$

Se estivermos faltando alguns preditores (digamos, ), a expectativa nem seria a verdadeira média, e análises adicionais em um modelo incorreto parecem inúteis. $X_{k+1}\ \text{to}\ X_p$ $\mathbb{E}[Y_i] = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik}$

Como verificamos se o modelo é correto?

regression residuals error

— mai
fonte

9

Os resíduos são nossas estimativas dos termos de erro

A resposta curta a essa pergunta é relativamente simples: as suposições em um modelo de regressão são suposições sobre o comportamento dos termos de erro e os resíduos são nossas estimativas dos termos de erro. Ipso facto , o exame do comportamento dos resíduos observados nos diz se as suposições sobre os termos do erro são plausíveis.

Para entender essa linha geral de raciocínio com mais detalhes, é útil examinar em detalhes o comportamento dos resíduos em um modelo de regressão padrão. Sob uma regressão linear múltipla padrão com termos de erro normal homosquástico independente, a distribuição do vetor residual é conhecida, o que permite testar as premissas distributivas subjacentes no modelo de regressão. A idéia básica é que você descubra a distribuição do vetor residual sob as premissas da regressão e verifique se os valores residuais correspondem plausivelmente a essa distribuição teórica. Os desvios da distribuição residual teórica mostram que a distribuição assumida subjacente dos termos de erro está errada em alguns aspectos.

Se você usar a distribuição de erro subjacente para um modelo de regressão padrão e usar a estimativa OLS para os coeficientes, a distribuição dos resíduos poderá ser mostrada como a distribuição normal multivariada: $\epsilon_i \sim \text{IID N}(0, \sigma^2)$

r = (I - h) ϵ \sim N (0, σ^{2} (I - h)),

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})),$

onde é a matriz do chapéu para a regressão. O vetor residual imita o vetor de erro, mas a matriz de variância possui o termo multiplicativo adicional . Para testar as premissas de regressão, usamos os resíduos estudados, que têm distribuição T marginal: $\boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}}$ $\boldsymbol{I} - \boldsymbol{h}$

s_{i} \equiv \frac{r_{i}}{{\hat{σ}}_{Ext} \cdot (1 - l_{i})} \sim T ({df}_{Res} - 1) .

$s_i \equiv \frac{r_i}{\hat{\sigma}_{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}_{\text{Res}}-1).$

(Esta fórmula é para os resíduos estudados externamente, em que o estimador de variância exclui a variável em consideração. Os valores são os valores de alavancagem, que são os valores diagonais na matriz do chapéu . Os resíduos estudados não são independente, mas se for grande, elas são próximas de independentes, o que significa que a distribuição marginal é uma distribuição conhecida simples, mas a distribuição conjunta é complicada.) Agora, se o limite existe, então pode ser demonstrado que os estimadores de coeficiente são estimadores consistentes dos verdadeiros coeficientes de regressão e os resíduos são estimadores consistentes do termos de erro verdadeiros. $l_i = h_{i,i}$ $n$ $\lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta$

Essencialmente, isso significa que você testa as premissas distributivas subjacentes para os termos de erro comparando os resíduos estudados com a distribuição T. Cada uma das propriedades subjacentes da distribuição de erros (linearidade, homocedasticidade, erros não correlacionados, normalidade) pode ser testada usando as propriedades análogas da distribuição dos resíduos estudados. Se o modelo for especificado corretamente, para grandes, os resíduos devem estar próximos dos termos de erro reais e têm uma forma distributiva semelhante. $n$

A omissão de uma variável explicativa do modelo de regressão leva ao viés variável omitido nos estimadores de coeficiente e isso afeta a distribuição residual. Tanto a média quanto a variância do vetor residual são afetadas pela variável omitida. Se os termos omitidos na regressão forem , o vetor residual se tornará . Se os vetores de dados na matriz omitida forem vetores normais do IID e independentes dos termos de erro, $\boldsymbol{Z} \boldsymbol{\delta}$ $\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon})$ $\boldsymbol{Z}$ $\boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma_*^2 \boldsymbol{I})$ para que a distribuição residual se torne:

r = (I - h) (Z δ + ϵ) \sim N (μ (I - h) 1, σ_{*}^{2} (I - h)) .

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma_*^2 (\boldsymbol{I} - \boldsymbol{h}) \Big).$

Se já houver um termo de interceptação no modelo (ou seja, se o vetor de unidade estiver na matriz de design), então $\boldsymbol{1}$ $(\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0}$ , o que significa que a forma distributiva padrão dos resíduos é preservada. Se não houver termo de interceptação no modelo, a variável omitida poderá fornecer uma média diferente de zero para os resíduos. Como alternativa, se a variável omitida não for normal para o IID, poderá levar a outros desvios da distribuição residual padrão. Neste último caso, é improvável que os testes residuais detectem algo resultante da presença de uma variável omitida; geralmente não é possível determinar se os desvios da distribuição residual teórica ocorrem como resultado de uma variável omitida ou apenas por causa de uma relação incorreta com as variáveis incluídas (e, sem dúvida, essas são a mesma coisa em qualquer caso).

— Ben - Restabelecer Monica
fonte

11

Obrigado pela resposta abrangente. Posso perguntar onde você obteve ? Parece-me que

r = (I - h) ϵ

$r=(I−h)ϵ$

r = Y - \hat{Y} = (I - h) Y

$r=Y-\hat{Y}=(I-h)Y$

— mai

11

Como você tem para que .

h x = x

$\boldsymbol{h} \boldsymbol {x} = \boldsymbol {x}$

(I - h) x = 0

$(\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {x} = \boldsymbol {0}$

r = (I - h) Y = (I - h) (x β + ϵ) = (I - h) ϵ

$\boldsymbol {r} = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {Y} = (\boldsymbol {I} - \boldsymbol {h}) (\boldsymbol {x} \boldsymbol {\beta} + \boldsymbol {\epsilon} ) = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {\epsilon}$

— Ben - Restabelece Monica

-4

Geralmente, os termos resíduos e erros significam a mesma coisa. Se o seu modelo não possui preditores, E (Y) é realmente a média de Y. Com os preditores (como em seu modelo), E (Y) é o valor de Y previsto para cada X. Portanto, os resíduos são a diferença entre cada um observado e Y previsto.

— Tim Bednall
fonte

3

"Geralmente, os termos resíduos e erros significam a mesma coisa." Eu não acho que isso seja verdade - até onde eu entendi, os resíduos medem a diferença entre o valor observado e o valor previsto, enquanto os erros medem a diferença entre o valor observado e o verdadeiro valor médio.

— mai

11

Estritamente falando, erros e resíduos não são sinônimos. Os primeiros são variáveis aleatórias, os segundos são realizações.

— Richard Hardy

Por que usamos resíduos para testar as suposições sobre erros na regressão?

Os resíduos são nossas estimativas dos termos de erro