Como derivar o estimador de mínimos quadrados para regressão linear múltipla?


30

No caso de regressão linear simples , é possível derivar o estimador de mínimos quadrados que você não precise conhecer para estimarβ 1 = Σ ( x i - ˉ x ) ( y i - ˉ y )y=β0+β1xβ 0 β 1β^1=(xix¯)(yiy¯)(xix¯)2β^0β^1

Suponha que eu tenha , como derivar sem estimar ? ou isto nao e possivel?β 1 β 2y=β1x1+β2x2β^1β^2


1
Você pode omitir uma das variáveis ​​e ainda obter uma estimativa imparcial da outra se elas forem independentes.
david25272

Respostas:


51

A derivação na notação matricial

A partir de , que é realmente o mesmo quey=Xb+ϵ

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

tudo se resume a minimizar :ee

ϵϵ=[e1e2eN][e1e2eN]=Eu=1NeEu2

Portanto, minimizar o ee nos dá:

e e = ( y - X b ) ( y - X b )mEunb ee=(y-Xb)(y-Xb)

e e = y y - 2 b X y + b X X bmEunb ee=yy-2bXy+bXXb

(ee)b=-2Xy+2XXb=!0 0

XXb=Xy

b=(XX)-1Xy

Uma última coisa matemática, a condição de segunda ordem para um mínimo requer que a matriz seja definida positivamente. Este requisito é cumprido no caso de ter classificação completa.XXXX

A derivação mais precisa que segue todas as etapas do departamento maior pode ser encontrada em http://economictheoryblog.com/2015/02/19/ols_estimator/


3
Essa derivação é precisamente o que eu estava procurando. Não há etapas ignoradas. Surpreendente como é difícil encontrar o mesmo.
Javadba

1
Na equação da matriz, o segundo não deveria *ser um +? Além disso, não deveria ser vez de para obter as dimensões correspondentes? b NbKbN
Alexis Olson

Alexis Olson, você está certo! Eu editei minha resposta.
Andreas Dibiasi

13

É possível estimar apenas um coeficiente em uma regressão múltipla sem estimar os outros.

A estimativa de é obtida removendo os efeitos de das outras variáveis ​​e, em seguida, regredindo os resíduos de contra os resíduos de . Isso é explicado e ilustrado. Como exatamente se controla outras variáveis? e Como normalizar (a) coeficiente de regressão? . A vantagem dessa abordagem é que ela não requer cálculo, álgebra linear, pode ser visualizada usando apenas geometria bidimensional, é numericamente estável e explora apenas uma idéia fundamental de regressão múltipla: a de remover (ou "controlar") ) os efeitos de uma única variável.x 2 y x 1β1x2yx1


No presente caso, a regressão múltipla pode ser feita usando três etapas de regressão comuns:

  1. Regresse em (sem um termo constante!). Seja o ajuste . A estimativa é Portanto, os resíduos são Geometricamente, é o que resta de depois que sua projeção em é subtraída.x 2 y = ct y , 2 x 2 + ô ct y , 2 = Σ i y i x 2 iyx2y=αy,2x2+δδ=y-αy,2x2. δyx2

    αy,2=EuyEux2EuEux2Eu2.
    δ=y-αy,2x2.
    δyx2
  2. Regresse em (sem um termo constante). Seja o ajuste . A estimativa éOs resíduos sãoGeometricamente, é o que resta de depois que sua projeção em é subtraída.x 2 x 1 = α 1 , 2 x 2 + y α 1 , 2 = Σ i x 1 I x 2 ix1x2x1=α1,2x2+γγ=x1-α1,2x2. γx1x2

    α1,2=Eux1Eux2EuEux2Eu2.
    γ=x1-α1,2x2.
    γx1x2
  3. Regresse em (sem um termo constante). A estimativa éO ajuste será . Geometricamente, é o componente de (que representa com retirado) na direção (que representa com retirado).γ p 1 = Σ i δ i γ iδγδ= β 1γ+£ β 1δyx2γx1x2

    β^1=EuδEuγEuEuγEu2.
    δ=β^1γ+εβ^1δyx2γx1x2

Observe que não foi estimado. β2β 0 β 1 εy x 1 x 2 Ele pode ser facilmente recuperado do que foi obtido até o momento (assim como no caso de regressão comum é facilmente obtido a partir da estimativa de inclinação ). O são os resíduos da regressão bivariada de em e .β^0 0β^1εyx1x2

O paralelo com a regressão comum é forte: os passos (1) e (2) são análogos da subtração dos meios na fórmula usual. Se você deixar um vetor de unidades, recuperará de fato a fórmula usual.x2

Este generaliza na forma óbvia de regressão com mais de duas variáveis: para estimar , regress e separadamente contra todas as outras variáveis, então regredir seus resíduos uns contra os outros. Nesse ponto, nenhum dos outros coeficientes na regressão múltipla de ainda foi estimado.yx1yβ^1yx1y


1
Ótima resposta, aqui está um teorema geral en.wikipedia.org/wiki/…
JohnK

4

A estimativa dos mínimos quadrados ordinários de é uma função linear da variável de respostaβ . Simplificando, a estimativa do OLS dos coeficientes, os 's, pode ser escrita usando apenas a variável dependente ( ' s) e as variáveis ​​independentes ( 's).Y i X k iβYEuXkEu

Para explicar esse fato para um modelo de regressão geral, você precisa entender um pouco de álgebra linear. Suponha que você queira estimar os coeficientes em um modelo de regressão múltipla,(β0,β1,...,βk)

Yi=β0+β1X1i+...+βkXki+ϵi

onde para . A matriz de design é uma matriz , em que cada coluna contém as observações da variável dependente . Você pode encontrar muitas explicações e derivações aqui da fórmula usada para calcular os coeficientes estimados , que éi = 1 , . . . , N X N × k n k t h X k β = ( β 0 , p 1 , . . . , Β k )ϵiiidN(0,σ2)i=1,...,nXn×knkthXkβ^=(β^0,β^1,...,β^k)

β^=(XX)1XY

assumindo que o inverso exista. Os coeficientes estimados são funções dos dados, não dos outros coeficientes estimados.(XX)1


Eu tenho uma pergunta de acompanhamento, no caso de regressão simples, você faz então se torna uma matriz de e , siga o . Como devo reescrever a equação no meu caso? X ( 1 , . . . , 1 ) ( X 1 - ˉ x , . . . , X N - ˉ x ) β = ( X ' X ) ( - 1yi=β0+β1x¯+β1(xix¯)+eiX(1,...,1)(x1x¯,...,xnx¯)β^=(XX)(1)XY
Sabre CN

E mais uma pergunta: isso se aplica aos casos em que e não são lineares, mas o modelo ainda é linear? Por exemplo, a curva de decaimento , posso substituir o exponencial por e para que se torne minha pergunta original? x 2 y = β 1 e x 1 t + β 2 e x 2 t x 1 x 2x1x2y=β1ex1t+β2ex2tx1x2
Sabre CN

Em seu primeiro comentário, você pode centralizar a variável (subtrair sua média) e usar essa é sua variável independente. Procure por "regressão padronizada". A fórmula que você escreveu em termos de matrizes não está correta. Para sua segunda pergunta, sim, você pode fazer isso, um modelo linear é linear em , desde que igual a uma combinação linear de , você está bem. y ββyβ
Caburke

2
(+1). Mas não deveria ser " matrix" em vez de ? k × nn×kk×n
Miura

3

Uma pequena nota menor sobre teoria versus prática. Matematicamente podem ser estimados com a seguinte fórmula:β0,β1,β2...βn

β^=(XX)1XY

onde é o dado de entrada original e é a variável que queremos estimar. Isso decorre da minimização do erro. Vou provar isso antes de fazer uma pequena observação prática.YXY

Seja o erro que a regressão linear comete no ponto . Então: eueii

ei=yiyi^

O erro quadrado total que cometemos é agora:

i=1nei2=i=1n(yiyi^)2

Por termos um modelo linear, sabemos que:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

Que pode ser reescrito na notação de matriz como:

Y^=Xβ

Nós sabemos isso

i=1nei2=EE

Queremos minimizar o erro quadrado total, para que a seguinte expressão seja o menor possível

EE=(YY^)(YY^)

Isso é igual a:

EE=(YXβ)(YXβ)

A reescrita pode parecer confusa, mas decorre da álgebra linear. Observe que as matrizes se comportam de maneira semelhante às variáveis ​​quando as multiplicamos em alguns aspectos.

Queremos encontrar os valores de forma que essa expressão seja o menor possível. Precisamos diferenciar e definir a derivada igual a zero. Nós usamos a regra da cadeia aqui.β

dEEdβ=2XY+2XXβ=0

Isto dá:

XXβ=XY

Tais que finalmente:

β=(XX)1XY

Então, matematicamente, parecemos ter encontrado uma solução. Porém, há um problema: é muito difícil calcular se a matriz é muito grande. Isso pode causar problemas de precisão numérica. Outra maneira de encontrar os valores ideais para nessa situação é usar um método do tipo descida de gradiente. A função que queremos otimizar é ilimitada e convexa; portanto, também usaríamos na prática um método de gradiente, se necessário. (XX)1Xβ


exceto que você realmente não precisa calcular ... #(XX)-1
user603 18/12/2012

ponto válido. também se poderia usar o processo gram schmidt, mas eu só queria observar que encontrar os valores ideais para o vetor também pode ser feito numericamente devido à convexidade. β
Vincent Warmerdam

2

Uma derivação simples pode ser feita apenas usando a interpretação geométrica de LR.

A regressão linear pode ser interpretada como a projeção de no espaço da coluna . Assim, o erro, é ortogonal ao espaço de coluna de . YXϵ^X

X

<X,y-Xβ^> =0 0

Xy-XXβ^=0 0

Xy=XXβ^

O que implica que,

(XX)-1Xy=β^

Agora o mesmo pode ser feito por:

YX2δ=Y-X2D^D^=(X2X2)-1X2y

X1X2γ=X1-X2G^G^=(X1X1)-1X1X2

e finalmente,

δγβ^1

insira a descrição da imagem aqui

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.