Mostrando que o estimador OLS é equivalente em escala?


11

Não tenho uma definição formal de equivalência de escala, mas eis o que a Introdução à aprendizagem estatística diz sobre isso na p. 217:

Os coeficientes padrão de mínimos quadrados ... são equivalentes à escala : multiplicar por uma constante simplesmente leva a uma escala das estimativas do coeficiente de mínimos quadrados por um fator de .Xjc1/c

Para simplificar, vamos assumir o modelo linear geral y=Xβ+ϵ , em que yRN , X é uma matriz N×(p+1) (em que p+1<N ) com todas as entradas em R , βRp+1 e ϵ é um N -dimensional vector de variáveis aleatórias com valores reais com E[ϵ]=0N×1 .

Pela estimativa do OLS, sabemos que se X possui uma classificação completa (coluna),

β^X=(XTX)1XTy.
Suponha que multiplicamos uma coluna de X , digamos xk por alguns k{1,2,,p+1} , por uma constante c0 . Isso seria equivalente à matriz
X[111c11]S=[x1x2cxkxp+1]X~
onde todas as outras entradas da matriz S acima são 0 e c está na k ésima entrada da diagonal de S . Então,X~X~como a nova matriz de design é
β^X~=(X~TX~)1X~Ty.
Após algum trabalho, pode-se mostrar que
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} e
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
Como mostro aqui a reivindicação citada acima (ou seja, β^X~=1cβ^X )? Não está claro para mim como calcular (X~TX~)1 .

Eu acho que seu não está certo, está faltando um multiplicador em uma linha inteira. cX~TX~c
Firebug

1
Além disso, lembre-se de que a reivindicação é , nem todos os . ββ^k,new=1cβ^k,oldβ
Firebug

@ Firebug Sim, eu só descobri isso. Estou postando uma resposta.
Clarinetist

2
Você pode substituir toda essa álgebra por uma análise de unidades muito mais simples, porque multiplicar por apenas altera sua unidade de medida e, portanto, a alteração correspondente nas unidades associadas ao seu coeficiente é dividi-la por . Isso não prova que deve ser dividido por , infelizmente. No entanto, essa cadeia de pensamento pode nos lembrar que a regressão múltipla pode ser realizada por uma sucessão de regressões contra um regressor de cada vez, onde fica claro que é dividido por e, portanto, a prova está completa. c β j c β j c β j cXjcβjcβ^jcβ^jc
whuber

@whuber, embora a intuição para o resultado seja clara, parece que simplesmente deve haver um pouco de álgebra para fornecer uma prova. Afinal, o fator de escala precisa ser invertido. c
User795305

Respostas:


11

Como a asserção na citação é uma coleção de instruções sobre como redimensionar as colunas de , você também pode provar todas de uma vez. De fato, não é preciso mais trabalho para provar uma generalização da afirmação:X

Quando é multiplicado à direita por uma matriz invertível , a nova estimativa de coeficiente é igual a multiplicado à esquerda por .Um β Um β Um - 1XAβ^Aβ^A1

Os únicos fatos algébricos que você precisa são os (facilmente comprovados e bem conhecidos) que para qualquer matriz e para matrizes inversíveis e . (Uma versão mais sutil desta última é necessária ao trabalhar com inversos generalizados: para e invertíveis e qualquer , . ) A B ( A B ) - 1 = B - 1 A - 1 A B A B X ( A X B ) - = B - 1 X - A - 1(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


Prova de álgebra :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED. (Para que essa prova seja totalmente geral, o sobrescrito refere-se a um inverso generalizado.)


Prova por geometria :

Bases dadas e de e , respectivamente, representa uma transformação linear de a . A multiplicação correta de por pode ser considerada como deixando essa transformação fixa, mas alterando para (ou seja, para as colunas de ). Sob essa mudança de base, a representação de qualquer vetor deve ser alterada por multiplicação à esquerda por ,E N R N R p X R p R N X A E p A E p Um pR p Um - 1EpEnRnRpXRpRnXAEpAEpAβ^RpA1QED .

(Essa prova funciona, sem modificação, mesmo quando não é invertível.)XX


A cotação refere-se especificamente ao caso das matrizes diagonais com para e .A i i = 1 i j A j j = cAAii=1ijAjj=c


Conexão com mínimos quadrados

O objetivo aqui é usar os primeiros princípios para obter o resultado, sendo o princípio dos mínimos quadrados: estimar coeficientes que minimizam a soma dos quadrados dos resíduos.

Novamente, provar uma generalização (enorme) não prova mais difícil e é bastante revelador. Suponha que seja qualquer mapa (linear ou não) de espaços vetoriais reais e suponha que seja qualquer função com valor real em . Seja o (possivelmente vazio) conjunto de pontos para o qual é minimizado. Q W n U V p v Q ( ϕ ( v ) )

ϕ:VpWn
QWnUVpvQ(ϕ(v))

Resultado: , que é determinado apenas por e , não depende de nenhuma escolha de base usada para representar vetores em .Q ϕ E p V pUQϕEpVp

Prova: QED.

Não há nada a provar!

Aplicação do resultado: Seja uma forma quadrática semidefinida positiva em , e suponha que seja um mapa linear representado por quando bases de e são escolhidos. Defina . Escolha uma base de e suponha que é a representação de algum nessa base. Isso é o mínimo de quadrados : minimiza a distância ao quadrado . PorqueR N y R n φ X V p = R P W n = R n Q ( x ) = M ( y , x ) R p β v L X = X β F ( y , x ) X R p X Um β Um - 1FRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xé um mapa linear, alterando a base de corresponde a direita multiplicando- por uma matriz invertível . Isso será multiplicado à esquerda por , QED .RpXAβ^A1


6

Defina o estimador de mínimos quadrados , em que a matriz de design é a classificação completa. Supondo que a matriz de escala seja invertível. XRn×pSRp×pβ^=argminβRpyXβ22XRn×pSRp×p

Defina esse novo estimador em escala . Isso significa que para todos . Definindo , podemos reescrever essa desigualdade exibida acima como para todos . Portanto, , e segue-se que o estimador de mínimos quadrados Devido à invertibilidade da matriz de escalay-XS ~ α 2 2 <y-XSα 2 2 α ~ α ~ β =S ~ αy-X ˜ β ² 2 2 <y-α~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~ β ~ β ~ β = arg min β R py - X β 2 2 β = ~ β = S ~ α . S ~ α = S - 1 p p k t h 1
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
S, segue-se que . No nosso caso, isso só difere de pelo entrada que está sendo dimensionado por .α~=S1β^β^kth1c

1
Não estou familiarizado como deveria trabalhar com e funções semelhantes - você poderia explicar a transição da sua segunda para a terceira linha de equações? arg min
Clarinetist

Eu escrevi um pouco diferente, o que deve tornar as etapas mais claras.
precisa saber é o seguinte

Isso é realmente inteligente. (+1)
Clarinetist

4

Eu descobri isso depois de postar a pergunta. Se meu trabalho estiver correto, no entanto, interpretei mal a reivindicação. A ocorre apenas no componente de correspondente à coluna de multiplicada por . βXc1cβXc

Observe que , na notação acima, é uma matriz diagonal, simétrica e possui inversa (porque é diagonal) Observe que é uma matriz . Vamos supor que ( p + 1 ) × ( p + 1 ) S - 1 = [ 1S(p+1)×(p+1)( ~ X t ~ X )-1(p+1)x(p+1)(XtX)-1=[ Z 1 Z 2z kz p + 1 ]. ( ˜ X T ˜ X )-1=[(XS)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
Portanto, e multiplicando isso por tem um efeito semelhante ao que foi multiplicado por por - ele permanece o mesmo, é multiplicado por
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : Portanto,
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
conforme desejado.

Há um erro de digitação em . Você precisa transpor . S1(XTX)1S1(XS)y(XS)
JohnK

3

A prova mais trivial de todos os tempos

Você começa com sua equação linear: Agora você deseja alterar a escala de seus regressores, talvez converter do sistema métrico para Imperial, você sabe quilogramas em libras, metros em jardas etc. Então, você vem com a matriz de conversão onde cada é o coeficiente de conversão para a variável (coluna) na matriz de design .

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

Vamos reescrever a equação:

Y=(XS)(S1β)+ε

Agora está bem claro que o dimensionamento é propriedade da linearidade da sua equação, não o método OLS de estimativa de coeficientes. Independentemente do método de estimativa com equação linear, você tem que, quando os regressores são dimensionados como seus novos coeficientes devem ser dimensionados comoXSS1β

Prova de álgebra apenas para OLS

A escala é a seguinte: onde factor de escala de cada uma das variáveis (coluna), e uma versão em escala de . Vamos chamar a matriz de escala diagonal . Seu estimador OLS é Vamos conectar a matriz em escala vez de e usar alguma álgebra de matriz : Então, você vê como o novo coeficiente é simplesmente o coeficiente antigo reduzido, conforme o esperado.

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
Gosto das suas abordagens, mas não estou convencido da "prova mais trivial de todos os tempos". Você assumiu implicitamente, e ainda precisa mostrar, que o modelo reescrito deve ter o mesmo ajuste que o original. Para colocá-lo com mais rigor: se visualizarmos um procedimento de ajuste como uma função , onde é o conjunto de todos os dados possíveis (que poderíamos escrever como o par ordenado ) e é o conjunto de todas as estimativas possíveis de coeficientes, é necessário demonstrar que para todos invertível , tudo , e todos . (Isso nem sempre é verdade!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
whuber

@whuber, na verdade é o contrário: o procedimento de ajuste razoável deve atender a essa condição; caso contrário, uma simples mudança de unidade de medida produzirá uma previsão / estimativa diferente. eu vou atualizar a minha resposta, vai pensar um pouco
Aksakal

Eu concordo - mas posso imaginar exceções nos casos em que não é da categoria completa. Isso foi o que me sugeriu que a situação não é tão trivial quanto parece. X
whuber

3
imperial mate, not royal ...: D (Resposta agradável, +1)
usεr11852

@ usεr11852, eu aprendi alguma coisa hoje :)
Aksakal

2

Uma maneira fácil de obter esse resultado é lembrar que é a projeção de no espaço da coluna de é o vetor de coeficientes quando é expresso como linear combinação de colunas de . Se alguma coluna é dimensionada por um fator , é claro que o coeficiente correspondente na combinação linear deve ser dimensionado em .y^yX. β^y^Xc1/c

Seja os valores de e os valores da solução OLS quando uma coluna for dimensionada porbiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

implica que onde e , assumindo que as colunas de são linearmente independentes. j i b i = a i c Xbj=ajjibi=aicX

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.