Por que o RSS é distribuído chi square times np?

Gostaria de entender por que, no âmbito do modelo OLS, o RSS (soma dos quadrados dos resíduos) é distribuído ( sendo o número de parâmetros do modelo, o número de observações).

χ^{2} \cdot (n - p)

$\chi^2\cdot (n-p)$

p

$p$

n

$n$

Peço desculpas por fazer uma pergunta tão básica, mas parece que não consigo encontrar a resposta on-line (ou nos meus livros didáticos mais orientados para aplicativos).

regression distributions least-squares

— Tal Galili
fonte

Observe que as respostas demonstram que a afirmação não está correta: a distribuição do RSS é

σ^{2}

$\sigma^2$ (não

n - p

$n-p$ ) vezes uma distribuição

χ^{2} (n - p)

$\chi^2(n-p)$ que

σ^{2}

$\sigma^2$ é a verdadeira variação dos erros.

— whuber

Respostas:

Eu considero o seguinte modelo linear: ${y} = X \beta + \epsilon$ .

O vetor de resíduos é estimado por

\hat{ϵ} = y - X \hat{β} = (I - X (X^{'} X)^{- 1} X^{'}) y = Q y = Q (X β + ϵ) = Q ϵ

$\hat{\epsilon} = y - X \hat{\beta} = (I - X (X'X)^{-1} X') y = Q y = Q (X \beta + \epsilon) = Q \epsilon$

onde . $Q = I - X (X'X)^{-1} X'$

Observe que (o traço é invariável sob permutação cíclica) e que . Os autovalores de são, portanto, e (alguns detalhes abaixo). Portanto, existe uma matriz unitária tal que ( matrizes são diagonalizáveis por matrizes unitárias se e somente se forem normais ) . $\textrm{tr}(Q) = n - p$ $Q'=Q=Q^2$ $Q$ $0$ $1$ $V$

V^{'} Q V = Δ = diag (\underset{n - p times}{\underset{⏟}{1, \dots, 1}}, \underset{p times}{\underset{⏟}{0, \dots, 0}})

$V'QV = \Delta = \textrm{diag}(\underbrace{1, \ldots, 1}_{n-p \textrm{ times}}, \underbrace{0, \ldots, 0}_{p \textrm{ times}})$

Agora, vamos . $K = V' \hat{\epsilon}$

Desde , dispomos de e, por conseguinte, . portanto $\hat{\epsilon} \sim N(0, \sigma^2 Q)$ $K \sim N(0, \sigma^2 \Delta)$ $K_{n-p+1}=\ldots=K_n=0$

\frac{__K {__}^{2}}{σ^{2}} = \frac{__K^{⋆} {__}^{2}}{σ^{2}} \sim χ_{n - p}^{2}

$\frac{\|K\|^2}{\sigma^2} = \frac{\|K^{\star}\|^2}{\sigma^2} \sim \chi^2_{n-p}$

com . $K^{\star} = (K_1, \ldots, K_{n-p})'$

Além disso, como é uma matriz unitária, também temos $V$

__\hat{ϵ} {__}^{2} =__K {__}^{2} =__K^{⋆} {__}^{2}

$\|\hat{\epsilon}\|^2 = \|K\|^2=\|K^{\star}\|^2$

portanto

\frac{RSS}{σ^{2}} \sim χ_{n - p}^{2}

$\frac{\textrm{RSS}}{\sigma^2} \sim \chi^2_{n-p}$

Por fim, observe que esse resultado implica que

E (\frac{RSS}{n - p}) = σ^{2}

$E\left(\frac{\textrm{RSS}}{n-p}\right) = \sigma^2$

Como , o polinômio mínimo de divide o polinômio . Portanto, os autovalores de estão entre e . Como também é a soma dos autovalores multiplicados por sua multiplicidade, temos necessariamente que é um autovalor com multiplicidade e zero é um autovalor com multiplicidade . $Q^2 - Q =0$ $Q$ $z^2 - z$ $Q$ $0$ $1$ $\textrm{tr}(Q) = n-p$ $1$ $n-p$ $p$

— ocram
fonte

(+1) Boa resposta. Pode-se restringir a atenção a

ortogonal, em vez de unitário, pois

é real e simétrico. Além disso, o que é

? Não o vejo definido. Rejeitando levemente o argumento, também se pode evitar o uso de um normal degenerado, caso isso cause alguma consternação para aqueles que não o conhecem.

V

$V$

Q

$Q$

S C R

$\mathrm{SCR}$

— cardeal

@Cardeal. Bom ponto. SCR ('Somme des Carrés Résiduels' em francês) deveria ter sido RSS.

— Ocram

Obrigado pela resposta detalhada Ocram! Alguns passos exigirão que eu procure mais, mas tenho um esboço para pensar agora - obrigado!

— Tal Galili

@Glen_b: Ah, eu fiz uma edição há alguns dias para mudar SCR para SRR. Não lembro que o SCR é mencionado no meu comentário. Desculpe pela confusão.

— Ocram

@Glen_b: Era para significar RSS: -S Editado novamente. Thx

— ocram

IMHO, a notação matricial complica as coisas. A linguagem pura do espaço vetorial é mais limpa. O modelo pode ser escrito onde tem a distribuição normal padrão em e é assumido como pertencendo a um subespaço vetorial . $Y=X\beta+\epsilon$ $\boxed{Y=\mu + \sigma G}$ $G$ $\mathbb{R}^n$ $\mu$ $W \subset \mathbb{R}^n$

Agora a linguagem da geometria elementar entra em jogo. Os mínimos quadrados estimador de é nada mas : a projecção ortogonal da observável no espaço para que é assumido como pertencem. O vetor de resíduos é : projeção no complemento ortogonal de em . A dimensão de é $\hat\mu$ $\mu$ $P_WY$ $Y$ $W$ $\mu$ $P^\perp_WY$ $W^\perp$ $W$ $\mathbb{R^n}$ $W^\perp$ . $\dim(W^\perp)=n-\dim(W)$

Finalmente, e tem a distribuição normal padrão em , portanto, sua norma ao quadrado tem a distribuição com graus de liberdade.

P_{W}^{⊥} Y = P_{W}^{⊥} (μ + σ G) = 0 + σ P_{W}^{⊥} G,

$P^\perp_WY = P^\perp_W(\mu + \sigma G) = 0 + \sigma P^\perp_WG,$

P_{W}^{⊥} G

$P^\perp_WG$

W^{⊥}

$W^\perp$

χ^{2}

$\chi^2$

\dim (W^{⊥})

$\dim(W^\perp)$

Esta demonstração usa apenas um teorema, na verdade um teorema de definição:

Definição e teorema . Um vetor aleatório em tem a distribuição normal padrão em um espaço vetorial se ele recebe seus valores em e suas coordenadas em um ( $\mathbb{R}^n$ $U \subset \mathbb{R}^n$ $U$ $\iff$ ao todo) base ortonormal de são distribuições normais padrão unidimensionais independentes $U$

(deste teorema da definição, o teorema de Cochran é tão óbvio que não vale a pena afirmar)

— Stéphane Laurent
fonte