Convertendo o coeficiente beta da matriz para notação escalar na regressão OLS


7

Descobri para meus exames de econometria que, se eu esquecer a notação escalar, muitas vezes posso me salvar lembrando a notação da matriz e trabalhando para trás. No entanto, o seguinte me confundiu.

Dada a estimativa simples

yi^=β0^+β1^xi1

Como é que vamos

β^=(XX)1Xy

para

β^1=i=1n(xix¯)(yiy¯)i=1n(xix¯)2

Fico preso em

β^1=i=1nxiyii=1nxi2

O que você está usando para ? Você incluiu uma coluna de unidades para o termo de interceptação? X
whuber

Sim, supondo que o modelo é simplesmente y_i = beta_0 + \ beta_1x_ {i1}
JuniorBurger

Meu ponto de vista é que não há inclusão da matriz centralizadora M_0 na forma da matriz, então como derivar o \ bar {x} e \ bar {y}?
JuniorBurger

Se você incluiu essa coluna de unidades, não calculou o inverso de corretamente: deve ser uma matriz e aplicá-la ao portanto, fornecerá um vetor . XX2×2Xy2
whuber

Desculpe, acho que posso não ter afirmado a pergunta claramente. Minha principal pergunta é de onde vêm as médias amostrais de xey? Como você chega à fórmula do beta escalar_1, Cov (x, y) sobre Var (x), começando na notação da matriz?
JuniorBurger

Respostas:


4

Solução

A álgebra matricial pode ser desanimadora e, se não for realizada com elegância, pode exigir uma enorme quantidade de manipulação algébrica (supérflua). No entanto, a situação é muito mais simples do que parece, porque (criando a matriz colocando uma coluna de unidades primeiro e depois a coluna de valores independentes depois)X(xi)

XX=(nSxSxSxx)

e

Xy=(SySxy)

( são abreviações úteis e razoavelmente comuns para somas das variáveis ​​e seus produtos). Assim, as equações normais para as estimativas são - quando escritas como equações lineares simultâneas - meramenteSβ^=(β^0,β^1)

nβ^0+Sxβ^1=SySxβ^0+Sxxβ^1=Sxy,

que devem ser resolvidos para e Na verdade, você realmente não precisa resolver esse ab initio: tudo o que você precisa fazer neste momento é verificar qual fórmula para realmente funciona. Isso requer apenas álgebra elementar. Não mostrarei porque existe uma maneira melhor de produzir o mesmo resultado de uma maneira muito mais esclarecedora e generalizável.β^0β^1.β^1


Motivação e Generalização

Lembre-se de que as equações normais são derivadas considerando o problema de minimizar a soma dos quadrados dos resíduos,

SSR=i(yi(β0+β1xi))2.

O aparecimento de corresponde a uma coluna de uns em , enquanto o aparecimento de corresponde a uma coluna em . Em geral, essas colunas não são ortogonais. (Lembre-se de que dizemos que dois vetores são ortogonais quando o produto escalar é zero. Geometricamente, isso significa que eles são perpendiculares. Consulte as referências para saber mais sobre isso.) Podemos torná-los ortogonais subtraindo alguns múltiplos de um deles do outro. A escolha mais fácil é subtrair uma constante de cada para tornar o resultado ortogonal à coluna constante; isto é, buscamos um número para o qualβ0Xβ1(xi)Xxic

0=(1,1,,1)(x1c,x2c,,xnc)=i(1(xic))=Sxnc.

A solução exclusiva é claramente a média do Portanto, vamos reescrever o modelo em termos das variáveis ​​"centralizadas" Ele nos pede para minimizarc=Sx/n=x¯,xi.xix¯.

SSR=i(yi(β0+β1x¯+β1(xix¯)))2.

Para simplificar, escreva o termo constante desconhecido como

α=β0+β1x¯,

entendendo que, uma vez que as soluções e são obtidas, encontramos facilmente a estimativaα^β^1

β^0=α^β^1x¯.

Em termos de incógnitas as equações normais são agora(α^,β^1)

(n00i(xix¯)2)(α^β^1)=(Syi(xix¯)yi).

Quando escritas como duas equações lineares simultâneas, cada desconhecido é isolado em sua própria equação, o que é simples de resolver: é o que obtém colunas ortogonais emX Em particular, a equação para éβ^1

i(xix¯)2 β^1=i(xix¯)yi.

É um passo algébrico curto e simples desta para o resultado desejado. (Use o fato de que )i(xix¯)y¯=0.

A generalização para várias variáveis ​​ocorre da mesma maneira: na primeira etapa, subtraia múltiplos adequados da primeira coluna de de cada uma das outras colunas para que todas as colunas resultantes sejam ortogonais à primeira coluna. (Lembre-se de que isso se resume a resolver uma equação linear para uma constante desconhecida que é fácil.) Repita subtraindo múltiplos adequados da segundaXc,coluna das (novas) terceira, quarta, ..., etc. colunas para torná-las ortogonais às duas primeiras colunas simultaneamente. Continue "varrendo" as colunas dessa maneira até que elas sejam mutuamente ortogonais. As equações normais resultantes envolverão no máximo uma variável por vez e, portanto, são simples de resolver. Finalmente, as soluções precisam ser convertidas novamente nas variáveis ​​originais (assim como você precisa converter as estimativas e novamente em uma estimativa de no caso de regressão comum). A cada passo do caminho, tudo o que você está fazendo é criar novas equações a partir das antigas e resolver uma única variável de cada vez.α^β^1β^0


Referências

Para uma explicação mais formal dessa abordagem para resolver as equações normais, consulte Ortogonalização de Gram-Schmidt .

Seu uso na regressão múltipla é discutido por Lynne Lamotte em The Gram-Schmidt Construction como base para modelos lineares , The American Statistician 68 (1), fevereiro de 2014.

Para ver como encontrar apenas uma estimativa de coeficiente sem precisar calcular as outras, consulte a análise em https://stats.stackexchange.com/a/166718/919 .

Para uma interpretação geométrica, consulte minhas respostas em https://stats.stackexchange.com/a/97881/919 , https://stats.stackexchange.com/a/113207/919 ,


3

Se você regredir em uma constante e , sua matriz será Portanto, e Você pode fazer isso daqui?xiX

(1x11xn)
XX=(nixiixiixi2)
(XX)1=1nixi2(ixi)2(ixi2ixiixin)

Ahh, acabei de assistir a um vídeo sobre o inverso de uma matriz ... claramente meu conhecimento de notações / operações de matriz não estava à altura!
JuniorBurger

@ user212080 no caso de regressão linear simples, você poderia resolver o problema sem usar uma expressão padrão para o inverso de uma matriz. XtXβ=Xty
Sextus Empiricus

2

Para qualquer pessoa que esteja lutando com isso, escrevi tudo abaixo passo a passo.

Suponha que, para facilitar a explicação, tenhamos uma amostra mínima de 1 variável ( ) e apenas 2 observações ( ); Nossa estimativa em escalar éxk=1n=2yi^=β0^+β1^xi

β^=(β0^β1^)

y=(yiyi)

X=(1xi1xi)

Portanto

X=(11xixi)

e;

XX=(ni=1nxii=1nxii=1nxi2)

Lembre-se das regras de \ textbf {matrizes inversas}, em que det [.] = O determinante da matriz e adj [.] = O adjugado (às vezes chamado de adjunto) da matriz .;

(XX)1=1det[XX]×adj[XX]
det[XX]=1adbc=1ni=1nxi2(i=1nxi)2
adj[XX]=(dbca)=(i=1nxi2i=1nxii=1nxin)

Portanto

(XX)1=1det[XX]×adj[XX]=(i=1nxi2ni=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2nni=1nxi2(i=1nxi)2)

Xy=(11xixi)×(yiyi)=(i=1nyii=1nxiyi)

Portanto

β^=(XX)1Xy(β0^β1^)=(i=1nxi2ni=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2i=1nxini=1nxi2(i=1nxi)2nni=1nxi2(i=1nxi)2)×(i=1nyii=1nxiyi)

β1^=i=1nxi×i=1nyini=1nxi2(i=1nxi)2+n×i=1nxiyini=1nxi2(i=1nxi)2β1^=ni=1nxiyii=1nxii=1nyini=1nxi2(i=1nxi)2
Lembrando , portanto (da mesma forma para ); % 1ni=1nxi=x¯i=1nxi=nx¯yi
β1^=ni=1nxiyinx¯ny¯ni=1nxi2(nx¯)2β1^=ni=1nxiyin2x¯y¯ni=1nxi2n2(x¯)2Dividing by n;β1^=i=1nxiyinx¯y¯i=1nxi2n(x¯)2
β1^=i=1n(xix¯)(yiy¯)i=1n(xix¯)2
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.