Qual é a diferença entre a regressão linear em y com xex com y?


97

O coeficiente de correlação de Pearson de x e y é o mesmo, calculando pearson (x, y) ou pearson (y, x). Isso sugere que fazer uma regressão linear de y dado x ou x dado y deve ser o mesmo, mas não acho que seja esse o caso.

Alguém pode esclarecer quando o relacionamento não é simétrico e como isso se relaciona com o coeficiente de correlação de Pearson (que eu sempre acho que resume a melhor linha de ajuste)?


1
Toda matriz de correlação será simétrica porque . Encorajo-vos a elaborar a matemática para ver se isso é realmente verdade. Se você sabe que a relação entre e (ou quaisquer que sejam as variáveis ​​de interesse) não é simétrica a priori , poderá ser útil procurar outros métodos de análise. x ycov(x,y)=cov(y,x)xy
Phillip Cloud

14
Pontos interessantes foram feitos sobre uma questão relacionada, Efeito da resposta de comutação e variável explicativa na regressão linear simples .
chl

Respostas:


159

A melhor maneira de pensar sobre isso é imaginar um gráfico de dispersão de pontos com no eixo vertical e representada pelo eixo horizontal. Dada essa estrutura, você vê uma nuvem de pontos, que podem ser vagamente circulares ou podem ser alongados em uma elipse. O que você está tentando fazer em regressão é encontrar o que pode ser chamado de "linha de melhor ajuste". No entanto, embora isso pareça simples, precisamos descobrir o que queremos dizer com 'melhor', e isso significa que devemos definir o que seria uma linha ser boa ou uma linha ser melhor que a outra, etc. , devemos estipular uma função de perdaxyx. Uma função de perda nos dá uma maneira de dizer o quão "ruim" é algo e, assim, quando minimizamos isso, tornamos nossa linha o mais "boa" possível ou encontramos a melhor linha.

Tradicionalmente, quando realizamos uma análise de regressão, encontramos estimativas da inclinação e interceptação para minimizar a soma dos erros ao quadrado . Eles são definidos da seguinte maneira:

SSE=i=1N(yi(β^0+β^1xi))2

Em termos de nosso gráfico de dispersão, isso significa que estamos minimizando as distâncias verticais (soma do quadrado) entre os pontos de dados observados e a linha.

insira a descrição da imagem aqui

Por outro lado, é perfeitamente razoável regredir em , mas nesse caso, colocaríamos no eixo vertical, e assim por diante. Se mantido a trama como é (com , no eixo horizontal), regredindo para (mais uma vez, usando uma versão ligeiramente adaptada da equação acima, com e comutada) significa que seria minimizando a soma das distâncias horizontaisy x x x y x yxyxxxyxyentre os pontos de dados observados e a linha. Parece muito semelhante, mas não é exatamente a mesma coisa. (A maneira de reconhecer isso é fazer as duas coisas e, em seguida, converter algebricamente um conjunto de estimativas de parâmetros nos termos do outro. Comparando o primeiro modelo com a versão reorganizada do segundo modelo, fica fácil perceber que eles são não é o mesmo.)

insira a descrição da imagem aqui

Observe que nenhum dos dois modos produziria a mesma linha que desenharíamos intuitivamente se alguém nos entregasse um pedaço de papel milimetrado com pontos plotados. Nesse caso, desenharíamos uma linha reta no centro, mas minimizar a distância vertical gera uma linha um pouco mais plana (ou seja, com uma inclinação mais rasa), enquanto minimizar a distância horizontal produz uma linha um pouco mais íngreme .

Uma correlação é simétrica; é tão correlacionado com quanto é com . A correlação produto-momento de Pearson pode ser entendida dentro de um contexto de regressão. O coeficiente de correlação, , é a inclinação da linha de regressão quando ambas as variáveis ​​são padronizadas primeiro. Ou seja, primeiro você subtraiu a média de cada observação e depois dividiu as diferenças pelo desvio padrão. A nuvem de pontos de dados agora será centrada na origem e a inclinação será a mesma, se você regredir em ou emy y x r y x x yxyyxryxxy (mas observe o comentário de @DilipSarwate abaixo).

insira a descrição da imagem aqui

Agora, por que isso importa? Usando nossa função tradicional de perda, estamos dizendo que todo o erro está em apenas uma das variáveis ​​(viz., ). Ou seja, estamos dizendo que é medido sem erro e constitui o conjunto de valores de que nos preocupamos, mas que tem erro de amostragemx yyxy. Isso é muito diferente de dizer o contrário. Isso foi importante em um episódio histórico interessante: no final dos anos 70 e início dos anos 80 nos EUA, argumentou-se que havia discriminação contra as mulheres no local de trabalho, e isso foi apoiado por análises de regressão que mostraram que mulheres com antecedentes iguais (por exemplo, , qualificações, experiência etc.) foram pagos, em média, menos que os homens. Os críticos (ou apenas as pessoas que eram minuciosas) argumentaram que, se isso fosse verdade, as mulheres que eram pagas da mesma forma que os homens teriam que ser mais altamente qualificadas, mas quando isso foi verificado, verificou-se que, embora os resultados fossem "significativos" quando avaliadas de uma maneira, elas não foram "significativas" quando verificadas da outra maneira, o que deixou todos os envolvidos em choque. Veja aqui para um jornal famoso que tentou esclarecer a questão.


(Atualizado muito mais tarde) Aqui está outra maneira de pensar sobre isso que aborda o tópico através das fórmulas, em vez de visualmente:

A fórmula para a inclinação de uma linha de regressão simples é uma conseqüência da função de perda que foi adotada. Se você estiver usando a função de perda de Mínimos Quadrados Ordinários (observada acima), poderá derivar a fórmula da inclinação que você vê em todos os manuais de introdução. Esta fórmula pode ser apresentada de várias formas; uma das quais chamo de fórmula "intuitiva" para a inclinação. Considere este formulário para a situação em que você está regredindo em e onde você está regredindo em : yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Agora, espero que seja óbvio que estes não seriam os mesmos, a menos que seja igual a . Se as variações forem iguais (por exemplo, porque você padronizou as variáveis ​​primeiro), também serão os desvios padrão e, portanto, as variações também serão . Nesse caso, seria igual a de Pearson , que é o mesmo de qualquer maneira em virtude do princípio da comutatividade : Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
+1 para menção de minimizar a função de perda. Alternativas às distâncias verticais ou horizontais incluem o uso da distância perpendicular à linha ou à área do retângulo, cada uma produzindo diferentes linhas de regressão.
Henry

7
Eu não acho que a afirmação "a inclinação seria a mesma, se você regredisse em ou em ". está correto se a convenção for plotar no eixo horizontal no eixo vertical. Nesse caso, as inclinações são recíprocas . Se seguirmos a convenção de variável independente no eixo horizontal e variável dependente no eixo vertical, então sim, a inclinação é a mesma. Mas com esta convenção, a explicação das distâncias verticais versus distâncias horizontais não se aplica; é sempre a distância vertical dos pontos da linha. yxxyxy
Dilip Sarwate

4
@DilipSarwate, o que você está dizendo é verdade. Meu argumento ao usar os termos "vertical" e "horizontal" é tornar visualmente aparente a idéia de que o erro é entendido como erro de amostragem emy ou erro de amostragem em . Se plotarmos no eixo vertical e regredir em , as distâncias minimizadas serão verticais, mas o erro minimizado ainda será o erro de amostragem em . Pode ser que minha resposta não seja clara o suficiente; Eu posso editá-lo, se eu puder pensar em uma maneira melhor. x x x y xxxxyx
gung

1
Você poderia dizer que, no caso de correlação, a distância ortogonal entre os pontos e a linha está sendo minimizada? (Quero dizer a linha que vai do ponto para a linha de "regressão" e fica ortogonalmente sobre ela).
Vonjd 5/05

1
A correlação de Pearson não é exatamente uma linha, @vonjd. Acontece que é equivalente à inclinação de uma linha de mínimos quadrados ajustada quando os dados foram padronizados primeiro. O 1º componente principal, quando existem apenas 2 variáveis ​​e os dados foram padronizados primeiro, é uma espécie de linha ajustada que minimiza as distâncias ortogonais. HTH
gung

12

Vou ilustrar a resposta com algum Rcódigo e saída.

Primeiro, construímos uma distribuição normal aleatória y, com média de 5 e DP de 1:

y <- rnorm(1000, mean=5, sd=1)

Em seguida, criei propositalmente uma segunda distribuição normal aleatória x, que é simplesmente 5x o valor de ycada y:

x <- y*5

Por design, temos uma correlação perfeita de xe y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

No entanto, quando fazemos uma regressão, estamos procurando uma função que se relacione xe, yportanto, os resultados dos coeficientes de regressão dependem de qual deles usamos como variável dependente e de quais usamos como variável independente. Nesse caso, não ajustamos uma interceptação porque fizemos xuma função ysem variação aleatória:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Então, as regressões nos dizem isso y=0.2xe aquilo x=5y, que obviamente são equivalentes. O coeficiente de correlação está simplesmente nos mostrando que há uma correspondência exata nos níveis de mudança de unidade entre xe y, de modo que (por exemplo) um aumento de 1 unidade ysempre produz um aumento de 0,2 unidade x.


6

A percepção de que, como a correlação de Pearson é a mesma, quer façamos uma regressão de x contra y, ou y contra x é boa, devemos obter a mesma regressão linear é boa. É apenas um pouco incorreto, e podemos usá-lo para entender o que realmente está ocorrendo.

Esta é a equação de uma reta, que é o que estamos tentando obter de nossa regressão

insira a descrição da imagem aqui

A equação para a inclinação dessa linha é conduzida pela correlação de Pearson

insira a descrição da imagem aqui

Esta é a equação para a correlação de Pearson. É o mesmo se estamos regredindo x contra y ou y contra x

insira a descrição da imagem aqui

No entanto, quando olhamos para a nossa segunda equação para inclinação, vemos que a correlação de Pearson não é o único termo nessa equação. Se estivermos calculando y em relação a x, também temos o desvio padrão da amostra de y dividido pelo desvio padrão da amostra de x. Se calculássemos a regressão de x contra y, precisaríamos inverter esses dois termos.


4

Em questões como essa, é fácil se envolver com questões técnicas, portanto, gostaria de me concentrar especificamente na pergunta no título do segmento que pergunta: Qual é a diferença entre a regressão linear em y com xex com y ?

Considere por um momento um modelo econométrico (simplificado) da teoria do capital humano (o link vai para um artigo do ganhador do Nobel Gary Becker). Digamos que especifiquemos um modelo da seguinte forma: Este modelo pode ser interpretado como uma relação causal entre salários e educação. É importante ressaltar que a causalidade nesse contexto significa que a direção da causalidade vai da educação para os salários e não o contrário. Isso está implícito na maneira como o modelo foi formulado; a variável dependente é o salário e a variável independente é o ano de escolaridade.

wages=b0+b1 years of education+error

Agora, se fizermos uma reversão da equação econométrica (ou seja, alterar y em x para x em y), de modo que o modelo se torne então implícitas na formulação da equação econométrica é que estamos dizendo que a direção da causalidade vai dos salários à educação.

years of education=b0+b1 wages+error

Tenho certeza de que você pode pensar em mais exemplos como este (também fora do campo da economia), mas como você pode ver, a interpretação do modelo pode mudar bastante quando mudamos de regressão y em x para x em y.

Então, para a resposta da pergunta: Qual é a diferença entre a regressão linear em y com xex com y? , podemos dizer que a interpretação da equação de regressão muda quando regredimos x em y em vez de y em x. Não devemos ignorar esse ponto, porque um modelo que tem uma interpretação sólida pode rapidamente se transformar em um que faz pouco ou nenhum sentido.


3

Há um fenômeno muito interessante sobre esse tópico. Depois de trocar x e y, embora o coeficiente de regressão mude, mas a estatística t / estatística F e o nível de significância para o coeficiente não mudam. Isso também é verdade mesmo na regressão múltipla, na qual trocamos y com uma das variáveis ​​independentes.

Isso se deve a uma delicada relação entre a estatística F e o coeficiente de correlação (parcial). Essa relação realmente toca o núcleo da teoria dos modelos lineares. Há mais detalhes sobre essa conclusão em meu caderno: Por que as trocas yex não têm efeito em p?


Você pode achar o seguinte segmento interessante / confuso: Trocar X e Y em uma regressão que contém um preditor de agrupamento .
gung

2
O artigo "Por que a troca yex não tem efeito sobre p" não está mais aqui. Você vai adicioná-lo de volta?
jetlag

1

Expandindo a excelente resposta de @ gung:

Em uma regressão linear simples o valor absoluto de Pearson pode ser visto como a média geométrica das duas inclinações que obtemos se regredir sobre e sobre , respectivamente: Podemos obter diretamente usando o ou ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

Curiosamente, pela desigualdade AM-GM , segue-se que o valor absoluto da média aritmética dos dois coeficientes de inclinação é maior que (ou igual a) ao valor absoluto do de Pearson : r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

A relação não é simétrica porque estamos resolvendo dois problemas diferentes de otimização. pode ser escrita como solução do seguinte problema:  Doing regression of y given x

minbE(YbX)2

enquanto que para : , que pode ser reescrita como:doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

Também é importante observar que dois problemas de aparência diferente podem ter a mesma solução.


1
Embora isso esteja correto - e obrigado por essas observações - você deixa seus leitores em espera: poderia explicar por que as soluções para esses dois problemas de aparência diferentes são necessariamente diferentes?
whuber

1
Você está certo. Na verdade, pensei sobre isso, mas não consegui encontrar uma maneira simples (e menos matemática) de explicar por que duas soluções são necessariamente diferentes, por isso tentei fazer com que esses dois problemas mais parecidos possível. Aqui, estou apenas tentando fornecer um ponto de vista diferente. look
SiXUlm

como a última linha é equivalente à linha do meio? Se você multiplicar 1 / b ^ 2, obtém E (X - Y / b) ^ 2 e não E (X - Yb) ^ 2
Austin Shin

@ AustinShin, na verdade, eu trapacei um pouco aqui. Na linha do meio, retiro , depois altero a variável: , o que me dá a última linha. b : = 1 / bbb:=1/b
SiXUlm 10/02

+1: você claramente fez o seu ponto agora!
whuber

0

Bem, é verdade que, para uma regressão bivariada simples, o coeficiente de correlação linear e o quadrado R serão os mesmos para ambas as equações. Mas as inclinações serão r Sy / Sx ou r Sx / Sy, que não são recíprocas uma da outra, a menos que r = 1.


1
"... ou " ... Ou, para ser mais sucinto, "... a menos que "r 2 = 11r2=1
Glen_b 31/08/17

-7

A idéia básica de regressão pode ser a 'causa e efeito' ou 'independente e dependente'. A prática normal de colocar variável independente no eixo X e variável dependente no eixo Y é representada por Y = mX + c. Se a inclinação deve ser chamada como m (X em Y) ou (Y em X) e a regressão como: (X em Y) ou (Y em X). É tratado de ambos os modos, o que não é bom e precisa ser esclarecido. Os modeladores costumam usar gráficos de dispersão para avaliar se a série simulada corresponde à série observada; e o uso da linha de regressão é inevitável. aqui não há cláusula causal. Atendendo a essa necessidade, a questão muda colocada pelo fio permanece. Ou, simplesmente, esclareça como chamar a análise de regressão normal: X em Y; ou Y em X?, indo além da resposta causal. Não é uma resposta para o tópico principal; mas uma pergunta paralela.


6
-1 Além de incoerente, essa resposta omite a ideia-chave tão bem explicada na melhor resposta: o modelo de probabilidade de variação nos dados determina se a regressão é significativa e determina qual variável pode ser considerada a variável dependente.
whuber

Esse entrevistado pode estar reiterando uma interpretação da questão do título reconhecidamente pouco clara, em termos de rotulagem habitual. Para um problema da forma y = mx + b, normalmente se descreve o relacionamento como "y é regredido em x" (sim) ou como "x é regredido em y" (não)? A pergunta sobre terminologia é respondida em stats.stackexchange.com/questions/207425/… .
InColorado
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.