Por que o traço de


13

No modelo y=Xβ+ϵ , podemos estimar β usando a equação normal:

β^=(XX)1Xy,
e poderíamos obter y =X β .
y^=Xβ^.

O vetor de resíduos é estimado por

ϵ^=yXβ^=(IX(XX)1X)y=Qy=Q(Xβ+ϵ)=Qϵ,

onde

Q=IX(XX)1X.

Minha pergunta é como obter a conclusão de

tr(Q)=np.

Respostas:


12

A conclusão apenas conta dimensões de espaços vetoriais. No entanto, isso geralmente não é verdade.

As propriedades mais básicas da multiplicação da matriz mostram que a transformação linear representada pela matriz satisfazH=X(XX)X

H2=(X(XX)X)2=X(XX)(XX)(XX)X=H,

exibindo-o como um operador de projeção . Portanto, seu complemento

Q=1H

(como indicado na pergunta) também é um operador de projeção. O traço de é sua classificação h (veja abaixo), de onde o traço de Q é igual aHhQ .nh

A partir de sua própria fórmula, é aparente que é a matriz associada à composição de duas transformações lineares J = ( X X ) - X e o próprio X. O primeiro ( J ) transforma o n -vector y para o p -vector β . O segundo ( X ) é uma transformação de R p a R n dada por Y = X βH

J=(XX)X
XJnypβ^XRpRny^=Xβ^. Sua classificação não pode exceder a menor dessas duas dimensões, que em um cenário de mínimos quadrados é sempre (mas pode ser menor que p , sempre que J não estiver na classificação completa). Por conseguinte, o grau da composição H = X J não pode exceder o posto de X . A conclusão correta , então, éppJH=XJX

se e somente se J for de classificação completa; e em geral n tr ( Q ) n - p . No primeiro caso, o modelo é considerado "identificável" (para os coeficientes de β ).tr(Q)=npJntr(Q)npβ

terá a classificação completa se e somente se X X for invertível.JXX


Interpretação geométrica

representa a projeção ortogonal de n- vetores y (representando a "resposta" ou "variável dependente") no espaço medido pelas colunas de X (representando as "variáveis ​​independentes" ou "covariáveis"). A diferença Q = 1 - H mostra como decompor qualquer nHnyXQ=1Hn -vector em uma soma de vectores y = H ( y ) + Q ( y ) , em que o primeiro pode ser "previsto" de X e a segunda é perpendicular a ele . Quando epy

y=H(y)+Q(y),
Xpcolunas de geram um espaço tridimensional p (isto é, não são colineares), a classificação de H é p e a classificação de Q é n - p , refletindo as dimensões adicionais de variação n - p na resposta que não são representadas dentro das variáveis ​​independentes. O traço fornece uma fórmula algébrica para essas dimensões.XpHpQnpnp

Fundo de álgebra linear

Um operador de projecção num espaço vectorial (tal como R N ) é uma transformação linear P : V V (isto é, um endomorfismo de V ) tal que P 2 = P . Isso faz seu complemento Q = 1 - PVRnP:VVVP2=PQ=1P um operador de projeção também, porque

Q2=(1P)2=12P+P2=12P+P=Q.

Todas as projecções fixar cada elemento das suas imagens, pois sempre que pode escrever v = P ( w ) para alguns w V , onde w = P ( v ) = P 2 ( v ) = P ( P ( v ) ) = P ( wvIm(P)v=P(w)wV

w=P(v)=P2(v)=P(P(v))=P(w).

Associados a qualquer endomorfismo de V estão dois subespaços: seu kernel ker ( P ) = { v vPV e suaimagem Im ( P ) = { v

ker(P)={vv|P(v)=0}
Cada vetor v V pode ser escrito na forma v = w + u onde w Im ( P ) e u Ker ( P ) . Portanto, podemos construir uma base E F para V para a qual E Ker ( P ) e F Im
Im(P)={vv|wVP(w)=v}.
vV
v=w+u
wIm(P)uKer(P)EFVEKer(P)FIm(P) . Quando é finito-dimensional, a matriz de P nesta base estará, portanto, na forma de diagonal de bloco, com um bloco (correspondente à ação de PVPP em ) todos os zeros e o outro (correspondente à ação de P em F ) igual a F por F matriz de identidade, em que a dimensão de F é f . O traço de P é a soma dos valores na diagonal e, portanto, deve ser igual a f × 1 = f . Este número é a classificação deEPFffFfPf×1=f : a dimensão da sua imagem.P

O rastreio de é igual ao traço de 1 (igual a n , a dimensão de V ) menos o vestígio de P .1P1nVP

Esses resultados podem ser resumidos com a afirmação de que o traço de uma projeção é igual à sua classificação.


Muito obrigado. Aprendi muito conhecimento estendido com sua resposta.
precisa saber é o seguinte

19

A @Dougal já deu uma resposta, mas aqui está outra, um pouco mais simples.

Primeiro, vamos usar o fato de que . Então, obtemos: t r ( Q ) = t r ( I ) - t r ( X ( X X ) - 1 X ) . Agora ( I ) = n . Agora vamos usar o fato de que ttr(AB)=tr(A)tr(B)

tr(Q)=tr(I)tr(X(XX)1X).
é um n × n matriz de identidade, de modo tIn×n r ( A B ) = t r ( B A ) , ou seja, o traço é invariável sob permutações cíclicas. Então, temos: t r ( Q ) = n - t r ( ( X X ) - 1 ( X X ) ) . Quando multiplicamos ( X X )tr(I)=ntr(AB)=tr(BA)
tr(Q)=ntr((XX)1(XX)).
(XX)1(XX)p×pp
tr(Q)=np.

6

Assuma isso np e essa X é de classificação completa.

Considere a decomposição compacta do valor singular X=vocêΣVT, Onde ΣRp×p is diagonal and URn×p,VRp×p have UTU=VTV=VVT=Ip (but note UUT is rank at most p so it cannot be In). Then

X(XTX)1XT=UΣVT(VΣUTUΣVT)1VΣUT=UΣVT(VΣ2VT)1VΣUT=UΣVTVΣ2VTVΣUT=UUT.

Now, there exists a matrix U2Rn×np such that Un=[UU2] is unitary. We can write

IX(XTX)1XT=UnUnTUUT=Un(In[Ip000])UnT=Un[000Inp]UnT.
This form shows that Q is positive semidefinite, and since it is a valid svd and the singular values are the square of the eigenvalues for a square symmetric matrix, also tells us that Q has eigenvalues 1 (of multiplicity np) and 0 (of multiplicity p). Thus the trace of Q is np.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.