Existe uma maneira elegante / perspicaz de entender essa identidade de regressão linear para múltiplos ?


9

Na regressão linear, encontrei um resultado agradável que, se encaixarmos no modelo

E[Y]=β1X1+β2X2+c,

então, se padronizarmos e centralizarmos os dados , e ,X 1 X 2YX1X2

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Isso me parece uma versão de 2 variáveis ​​de para regressão, o que é agradável. y = m x + cR2=Cor(Y,X)2y=mx+c

Mas a única prova que conheço não é de forma alguma construtiva ou perspicaz (veja abaixo), e, no entanto, para olhar para ela, parece que deve ser facilmente compreensível.

Exemplos de pensamentos:

  • Os e nos fornecem a 'proporção' de e em ; portanto, estamos tomando proporções respectivas de suas correlações ...β 2 X 1 X 2 Yβ1β2X1X2Y
  • Os s são correlações parciais, é a correlação múltipla ao quadrado ... correlações multiplicadas por correlações parciais ...R 2βR2
  • Se ortogonalizarmos primeiro, os s serão ... esse resultado faz algum sentido geométrico?C o v / V a rβCov/Var

Nenhum desses tópicos parece levar a lugar algum para mim. Alguém pode fornecer uma explicação clara de como entender esse resultado.


Prova Insatisfatória

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

e

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED.


Você deve estar usando variáveis ​​padronizadas; caso contrário, sua fórmula para não será garantida entre e . Embora essa suposição apareça na sua prova, ajudaria a torná-la explícita desde o início. Também estou intrigado com o que você está realmente fazendo: o seu claramente é uma função do modelo sozinho - não tendo nada a ver com os dados - mas você começa mencionando que "ajustou" o modelo a algo . 0 1 R 2R201R2
whuber

Seu resultado principal não é válido apenas se X1 e X2 não estiverem perfeitamente correlacionados?
gung - Restabelece Monica

@ Gung Eu não penso assim - a prova no fundo parece dizer que funciona independentemente. Esse resultado me surpreende muito, portanto, querendo uma "prova clara compreensão"
Korone

@whuber Não sei ao certo o que você quer dizer com "função do modelo sozinho"? Simplesmente quero dizer o para OLS simples com duas variáveis ​​mais precisas. Ou seja, este é a versão 2 variável deR 2 = C O R ( Y , X ) 2R2R2=Cor(Y,X)2
Korone

Não sei dizer se seus são os parâmetros ou as estimativas. βi
whuber

Respostas:


9

A matriz do chapéu é idempotente.

(Esta é uma maneira algébrica-linear de afirmar que OLS é uma projeção ortogonal do vetor de resposta no espaço estendido pelas variáveis.)


Lembre-se de que, por definição

R2=ESSTSS

Onde

ESS=(Y^)Y^

é a soma dos quadrados dos valores previstos (centralizados) e

TSS=YY

é a soma dos quadrados dos valores de resposta (centralizados). A padronização prévia de para a variação unitária também implicaY

TSS=YY=n.

Lembre-se, também, que os coeficientes estimados são dados por

β^=(XX)XY,

de onde

Y^=Xβ^=X(XX)XY=HY

onde é a "matriz chapéu" efectuar a projecção de para os seus mínimos quadrados caber . É simétrico (o que é óbvio por sua própria forma) e idempotente . Aqui está uma prova deste último para aqueles que não estão familiarizados com esse resultado. É apenas embaralhar parênteses em torno de:HYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Portanto

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

O movimento crucial no meio usou a idempotência da matriz do chapéu. O lado direito é a sua fórmula mágica porque é o (linha) de vector de coeficientes de correlação entre e as colunas de .1nYXYX


(+1) Muito bom artigo. Mas por que em ^{-}vez de ^{-1}todos os lugares?
Ameba

11
@amoeba É um inverso generalizado , colocado lá para lidar com os casos em que pode ser singular. XX
whuber

4
@amoeba Penrose, em seu artigo original ( A Generalized Inverse for Matrices , 1954) usou a notação . Não gosto disso nem da notação porque eles são facilmente confundidos com conjugados, transpostos ou transpostos conjugados, enquanto a notação é tão sugestiva de um inverso que o leitor casual pode se dar bem ao pensar em como se quiserem. Você é um leitor muito bom - mas obrigado por perceber. AA+AA1
whuber

11
Motivação interessante e convincente, mas posso perguntar se essa notação é algo que é ocasionalmente usado em outro lugar ou é sua própria invenção?
Ameba

5
@amoeba: Sim, essa notação aparece em outro lugar, inclusive nos textos clássicos de Graybill no modelo linear.
cardeal

4

As três fórmulas a seguir são bem conhecidas, elas são encontradas em muitos livros sobre regressão linear. Não é difícil derivá-los.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

Se você substituir os dois betas em sua equação , obterá a fórmula acima para o quadrado R.R2=rYX1β1+rYX2β2


Aqui está um "insight" geométrico. Abaixo estão duas imagens mostrando a regressão de por e . Esse tipo de representação é conhecido como variáveis ​​como vetores no espaço do assunto ( leia sobre o que se trata). As figuras são desenhadas depois que todas as três variáveis ​​foram centralizadas, e assim (1) o comprimento de cada vetor = st. desvio da respectiva variável e (2) ângulo (seu cosseno) entre cada dois vetores = correlação entre as respectivas variáveis.YX1X2

insira a descrição da imagem aqui

Y^ é a previsão de regressão (projeção ortogonal de no "plano X"); é o termo do erro; , coeficiente de correlação múltipla.YecosYY^=|Y^|/|Y|

A figura da esquerda mostra as coordenadas inclinadas de nas variáveis e . Sabemos que essas coordenadas relacionam os coeficientes de regressão. Nomeadamente, as coordenadas são: e .Y^X1X2b1|X1|=b1σX1b2|X2|=b2σX2

E a imagem à direita mostra as coordenadas perpendiculares correspondentes . Sabemos que essas coordenadas relacionam os coeficientes de correlação de ordem zero (estes são cossenos de projeções ortogonais). Se for a correlação entre e e for a correlação entre e , a coordenada será . Da mesma forma para a outra coordenada, .r1YX1r1Y^X1r1|Y|=r1σY=r1|Y^|=r1σY^r2|Y|=r2σY=r2|Y^|=r2σY^

Até agora, havia explicações gerais da representação vetorial de regressão linear. Agora, voltamos à tarefa para mostrar como ela pode levar a .R2=r1β1+r2β2

Antes de tudo, lembre-se de que, na pergunta deles, @Corone apresentou a condição de que a expressão é verdadeira quando todas as três variáveis ​​são padronizadas , ou seja, não apenas centralizadas, mas também dimensionadas para a variação 1. Então (isto é, implica são as "partes de trabalho" dos vetores), temos coordenadas iguais a: ; ; ; ; bem como. Redesenhe, nessas condições, apenas o "plano X" das figuras acima:|X1|=|X2|=|Y|=1b1|X1|=β1b2|X2|=β2r1|Y|=r1r2|Y|=r2R=|Y^|/|Y|=|Y^|

insira a descrição da imagem aqui

No quadro, que tem um par de coordenadas perpendiculares e um par de coordenadas de inclinação, do mesmo vector de comprimento . Existe uma regra geral para obter coordenadas perpendiculares a partir das inclinadas (ou anteriores): , onde é matriz de coordenadas perpendiculares; é a mesma matriz de tamanho dos enviesados; e são a matriz simétrica de ângulos (cossenos) entre os eixos não-ortogonais.Y^RP=SCPpoints X axesSCaxes X axes

X1 e são os eixos no nosso caso, com sendo o cosseno entre eles. Portanto, e .X2r12r1=β1+β2r12r2=β1r12+β2

Substitua esses s expressos por s na declaração de @ Corone e você obterá que , - o que é verdade , porque é exatamente como uma diagonal de um paralelogramo (pintada na figura) é expressa através de seus lados adjacentes (quantidade sendo o produto escalar).β R 2 = R 1 β 1 + R 2 β 2 R 2 = β 2 1 + β 2 2 + 2 β 1 β 2 R 12 β 1 β 2 r 12rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

O mesmo se aplica a qualquer número de preditores X. Infelizmente, é impossível desenhar imagens semelhantes com muitos preditores.


11
+1 bom vê-lo construído desta forma também, mas isso não adicionar como uma visão muito em comparação com a resposta de whuber
Korone

2
@ Corone, eu adicionei alguns "insights" que você pode ter.
ttnphns

11
+1 Muito legal (após a atualização). Eu pensei que invocar a "regra geral" de conversão entre coordenadas é um exagero (e para mim era apenas confuso); para ver que, por exemplo, é necessário apenas lembrar a definição de cosseno e observar um dos triângulos retângulos. r1=β1+β2r12
Ameba

Edição muito legal, comutada aceita.
Korone
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.