Efeito da resposta de comutação e variável explicativa na regressão linear simples


48

Vamos dizer que existe alguma relação "verdadeira" entre e tal que , onde e são constantes e é o ruído normal de IID. Quando eu gero dados aleatoriamente a partir desse código R: e depois encaixo em um modelo , obviamente obtenho estimativas razoavelmente boas para e .x y = a x + b + ϵ a b ϵ ayxy=ax+b+ϵabϵx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xab

Se eu mudar o papel das variáveis ​​como em (x ~ y), no entanto, e depois reescrever o resultado para ser uma função de , a inclinação resultante será sempre mais íngreme (mais negativa ou mais positiva) do que a estimada pela regressão. Estou tentando entender exatamente por que isso é e agradeceria se alguém pudesse me dar uma intuição sobre o que está acontecendo lá.yxy ~ x


11
Isso não é verdade em geral. Talvez você esteja vendo isso nos seus dados. Cole este código: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); em R várias vezes e você encontrará os dois lados.
macro

Isso é um pouco diferente do que eu estava descrevendo. No seu exemplo, y não era uma função de x, então não há realmente nenhuma "inclinação" (a 'a' no meu exemplo).
Greg Aponte

lm (y ~ x) se ajusta ao modelo por mínimos quadrados (equivalente à estimativa de ML quando os erros são normais). Há uma encosta. y=β0+β1x+ε
macro

2
Sua pergunta é feita e respondida (mais ou menos) em stats.stackexchange.com/questions/13126 e stats.stackexchange.com/questions/18434 . No entanto, acredito que ninguém ainda contribuiu com uma explicação simples e clara das relações entre (a) regressão de x , (b) regressão de x , (c) análise da correlação de e , (d) regressão de erros nas variáveis ​​de e e (e) ajustando uma distribuição normal bivariada a . Este seria um bom lugar para tal exposição :-). YXXYXYXY(X,Y)
whuber

2
É claro que a macro está correta: porque x e y desempenham papéis equivalentes na pergunta, qual inclinação é mais extrema é uma questão de sorte. No entanto, a geometria sugere (incorretamente) que, quando invertemos x e y na regressão, devemos obter o receptor da inclinação original. Isso nunca acontece, exceto quando x e y são linearmente dependentes. Esta questão pode ser interpretada como perguntando o porquê.
whuber

Respostas:


23

Dados pontos de dados , no plano, vamos desenhar uma linha reta . Se predizermos como o valor de , o erro será , o erro ao quadrado será , e o erro quadrático total . Nós perguntamos( x i , y i ) , i = 1 , 2 , ... n y = um x + b um x i + b y i y i ( y i - y i ) = ( y i - um x i - b ) ( y i - a x i - bn(xi,yi),i=1,2,ny=ax+baxi+by^iyi(yiy^i)=(yiaxib)n i = 1 ( y i - a x i - b ) 2(yiaxib)2 i=1n(yiaxib)2

O escolha de e minimiza ?b S = n i = 1 ( y i - a x i - b ) 2abS=i=1n(yiaxib)2

Como é a distância vertical de da linha reta, solicitamos a linha de tal forma que a soma dos quadrados das distâncias verticais dos pontos da linha seja tão pequena quanto possível. Agora é uma função quadrática de tanto e e atinge o seu valor mínimo, quando e são tais que Na segunda equação, obtemos where ( x i , y i ) S a b a b S(yiaxib)(xi,yi)Sabab b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
μy=1
b=1ni=1n(yiaxi)=μyaμx
yixia=( 1μy=1ni=1nyi, μx=1ni=1nxi são a média aritmética valores de 'e ' respectivamente. Substituindo a primeira equação, obtemos Assim, a linha que minimiza pode ser expressa como e o valor mínimo de é yixiSy=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
SSSmin=[(1
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

Se trocar os papéis de e , desenhar uma linha , e pedir os valores de e que minimizam isto é, queremos a linha de modo que a soma dos quadrados das distâncias horizontais dos pontos a partir da linha é tão pequena quanto possível, então temosxyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
e o valor mínimo de é T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

Observe que ambas as linhas passam pelo ponto mas as inclinações são são diferentes em geral. De fato, como @whuber aponta em um comentário, as inclinações são as mesmas quando todos os pontos estão na mesma linha reta. Para ver isso, observe que (μx,μy)

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

Obrigado! abs (correlação) <1 explica por que a inclinação foi sistematicamente mais acentuada no caso reverso.
Greg Aponte

(+1), mas eu adicionei uma resposta com apenas uma ilustração do que você acabou de dizer, como eu tenho uma mente geométrica :)
Elvis

Resposta da classe (+1)
Digio 19/10/2015

39

Apenas para ilustrar a resposta de Dilip: nas figuras a seguir,

  • os pontos pretos são pontos de dados;
  • à esquerda, a linha preta é a linha de regressão obtida por y ~ x, que minimiza os quadrados do comprimento dos segmentos vermelhos;
  • à direita, a linha preta é a linha de regressão obtida por x ~ y, que minimiza os quadrados do comprimento dos segmentos vermelhos.

linhas de regressão

Editar (regressão de menos retângulos)

Se não existe um meio natural de escolher uma "resposta" e uma "covariável", mas as duas variáveis ​​são interdependentes, você pode querer conservar um papel simétrico para e ; neste caso, você pode usar "regressão de menos retângulos".yx

  • escreva , como de costume;Y=aX+b+ϵ
  • denotam e as estimativas de condicional para e de condicional para ;y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • minimizar, o que leva a i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

Aqui está uma ilustração com os mesmos pontos de dados; para cada ponto, um "retângulo" é calculado como o produto do comprimento de dois segmentos vermelhos e a soma dos retângulos é minimizada. Não sei muito sobre as propriedades dessa regressão e não encontro muito com o google.

menos retângulos


14
Algumas anotações: ( 1 ) A menos que eu esteja enganado, parece que a "regressão de menos retângulos" é equivalente à solução obtida pela obtenção do primeiro componente principal da matriz após a centralização e reescalonar para ter variação de unidade e, em seguida, substituir novamente. (continuação)X=(y,x)
cardeal

14
(cont.) ( 2 ) Visto desta maneira, é fácil ver que essa "regressão de menos retângulos" é equivalente a uma forma de mínimos quadrados ortogonais (ou totais) e, portanto, ( 3 ) Um caso especial de regressão de Deming em os vetores centralizados e redimensionados, tendo . Os mínimos quadrados ortogonais podem ser considerados como "regressão de círculos mínimos". δ=1
cardeal

2
@ cardinal Comentários muito interessantes! (+1) Eu acredito que o eixo principal (minimizando distâncias perpendiculares entre a linha de registro e todos os pontos, à la PCA) ou a regressão reduzida do eixo principal , ou a regressão tipo II, como exemplificado no pacote lmodel2 R de P Legendre, também são relevantes aqui como essas técnicas são usadas quando é difícil dizer qual papel (resposta ou preditor) desempenha cada variável ou quando queremos contabilizar erros de medição.
chl

11
@chl: (+1) Sim, acredito que você esteja certo e a página da Wikipedia no total de mínimos quadrados lista vários outros nomes para o mesmo procedimento, nem todos com os quais estou familiarizado. Parece voltar a pelo menos R. Frisch, análise estatística de confluência por meio de sistemas completos de regressão , Universitetets Økonomiske Instituut, 1934, onde foi chamado de regressão diagonal .
cardeal

3
@ cardinal Eu deveria ter tido mais cuidado ao ler a entrada da Wikipedia ... Para referência futura, aqui está uma foto tirada de Bioestatística Design and Analysis Using R , de M. Logan (Wiley, 2010; Fig. 8.4, p. 174) , que resume as diferentes abordagens, bem como as boas ilustrações de Elvis.
chl

13

Apenas uma breve nota sobre por que você vê a inclinação menor para uma regressão. Ambas as inclinações dependem de três números: desvios padrão de e ( e ) e correlação entre e ( ). A regressão com como resposta tem inclinação e a regressão com como resposta tem inclinação , daí a a razão da primeira inclinação para a recíproca da segunda é igual a .xysxsyxyryrsysxxrsxsyr21

Portanto, quanto maior a proporção de variação explicada, mais próximas as inclinações obtidas de cada caso. Observe que a proporção de variância explicada é simétrica e igual à correlação ao quadrado na regressão linear simples.


1

Uma maneira simples de analisar isso é observar que, se o modelo verdadeiro , você executa duas regressões:y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

Então temos, usando :byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

Portanto, se você obtém uma inclinação mais íngreme ou não, depende apenas da razão . Essa proporção é igual a, com base no modelo verdadeiro assumido:var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

Link com outras respostas

Você pode conectar esse resultado com as respostas de outras pessoas, que disseram que quando , deveria ser recíproco. De fato, e também (sem erro de estimativa);R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

Entãobxy=1/β


0

Torna-se interessante quando também há ruído em suas entradas (o que poderíamos argumentar é sempre o caso, nenhum comando ou observação é sempre perfeito).

Eu construí algumas simulações para observar o fenômeno, com base em uma relação linear simples , com ruído gaussiano em x e y. Gerei as observações da seguinte forma (código python):x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Veja os resultados diferentes (odr aqui é regressão de distância ortogonal , ou seja, igual à regressão de menos retângulos):

insira a descrição da imagem aqui

Todo o código está lá:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

A linha de regressão não é (sempre) igual à verdadeira relação

Você pode ter algum relacionamento causal 'verdadeiro' como

y=a+bx+ϵ

mas ajustou linhas de regressão y ~ xou x ~ ynão significa o mesmo que a relação causal (mesmo quando, na prática, a expressão para uma das linhas de regressão pode coincidir com a expressão para a relação causal "verdadeira")


Relação mais precisa entre pistas

Para duas regressões lineares simples comutadas:

Y=a1+b1XX=a2+b2Y

você pode relacionar as inclinações da seguinte maneira:

b1=ρ21b21b2

Portanto, as encostas não são inversas.


Intuição

A razão é que

  • Linhas de regressão e correlações não necessariamente correspondem um a um a um relacionamento causal.
  • As linhas de regressão se relacionam mais diretamente a uma probabilidade condicional ou melhor previsão.

Você pode imaginar que a probabilidade condicional está relacionada à força do relacionamento. As linhas de regressão refletem isso e as inclinações das linhas podem ser rasas quando a força do relacionamento é pequena ou ambas íngremes quando a força do relacionamento é forte. As encostas não são simplesmente inversas.

Exemplo

Se duas variáveis e relacionam entre si por alguns (causal) relação linear Então você pode imaginar que seria não ser bom para todo inverter essa relação no caso de você deseja expressar baseado em um dado valor de .XY

Y=a little bit of X+ a lot of error
XY

Ao invés de

X=a lot of Y+ a little of error

seria melhor usar também

X=a little bit of Y+ a lot of error

Veja o exemplo de distribuições a seguir com suas respectivas linhas de regressão. As distribuições são multivariadas normais com eΣ11Σ22=1Σ12=Σ21=ρ

exemplo

Os valores condicionais esperados (o que você obteria em uma regressão linear) são

E(Y|X)=ρXE(X|Y)=ρY

e neste caso com uma distribuição normal multivariada, as distribuições marginais sãoX,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

Portanto, você pode ver a variável Y como uma parte e um ruído de parte com variação . O mesmo vale para o contrário.ρX1ρ2

Quanto maior for o coeficiente de correlação , quanto mais próximas as duas linhas será. Porém, quanto menor a correlação, menos forte a relação, menos acentuadas serão as linhas (isso é verdade para ambas as linhas e )ρY ~ XX ~ Y


0

A resposta curta

O objetivo de uma regressão linear simples é apresentar as melhores previsões da yvariável, dados os valores da xvariável. Esse é um objetivo diferente do que tentar obter a melhor previsão da xvariável, dados os valores da yvariável.

Regressão linear simples de y ~ xdá-lhe a 'melhor' modelo possível para a previsão ydada x. Portanto, se você encaixar um modelo x ~ ye invertê-lo algebricamente, esse modelo poderia funcionar da melhor maneira possível, assim como o modelo y ~ x. Porém, a inversão de um modelo adequado x ~ ygeralmente será pior na previsão yfornecida x, em comparação com o y ~ xmodelo 'ótimo' , porque o " x ~ ymodelo invertido " foi criado para atender a um objetivo diferente.

Ilustração

Imagine que você tem o seguinte conjunto de dados:

insira a descrição da imagem aqui

Ao executar uma regressão OLS y ~ x, você cria o seguinte modelo

y = 0.167 + 1.5*x

Isso otimiza as previsões yfazendo as seguintes previsões, que têm erros associados:

insira a descrição da imagem aqui

As previsões da regressão OLS são ótimas no sentido de que a soma dos valores na coluna mais à direita (ou seja, a soma dos quadrados) é a menor possível.

Quando você executa uma regressão de OLS x ~ y, cria um modelo diferente:

x = -0.07 + 0.64*y

Isso otimiza as previsões de x, fazendo as seguintes previsões, com erros associados.

insira a descrição da imagem aqui

Novamente, isso é ideal no sentido de que a soma dos valores da coluna mais à direita é o menor possível (igual a 0.071).

Agora, imagine que você tentou inverter o primeiro modelo y = 0.167 + 1.5*x, usando álgebra, fornecendo o modelo x = -0.11 + 0.67*x.

Isso forneceria as seguintes previsões e erros associados:

insira a descrição da imagem aqui

A soma dos valores na coluna mais à direita 0.074é maior do que a soma correspondente do modelo obtido pela regressão de x em y, ou seja, o x ~ ymodelo. Em outras palavras, o " y ~ xmodelo invertido " está fazendo um trabalho pior na previsão de x do que o modelo OLS de x ~ y.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.