A ordem variável importa na regressão linear


9

Estou investigando a interação entre duas variáveis ​​( e ). Existe uma grande correlação linear entre essas variáveis ​​com . Pela natureza do problema, não posso dizer nada sobre a causa (se causa ou o contrário). Eu gostaria de estudar os desvios da linha de regressão, a fim de detectar valores extremos. Para fazer isso, eu posso construir uma regressão linear de como uma função de ou o contrário. Minha escolha de ordem variável pode influenciar meus resultados?x1x2r>0.9x1x2x1x2


Na busca de outliers, você deve primeiro regredir sua variável dependente em relação a e e procurar por outliers. x1x2
21411 schenectady

Encontrar discrepâncias é o objetivo de sua investigação? Nesse caso, primeiro você deve regredir sua variável dependente contra e e, em seguida, executar testes externos. Se encontrar uma causa possível, considere realizar um experimento planejado. Se o objetivo do seu experimento é encontrar um relacionamento entre suas duas variáveis ​​independentes, observar a ocorrência de dados coletados não será suficiente. x1x2
21411 schenectady

Não está claro para mim o que você quer dizer com discrepantes. Se houver discrepâncias em seus dados, elas afetarão o cálculo da linha de regressão. Por que você está procurando discrepantes em e simultaneamente? x 2x1x2
DQdlM

@schenectady Use $$ para o LaTeX nos comentários, por favor.

Respostas:


3

Certamente pode (na verdade, até importa em relação às suposições em seus dados - você apenas faz suposições sobre a distribuição do resultado, dada a covariável). Nessa perspectiva, você pode procurar um termo como "variação de previsão inversa". De qualquer maneira, a regressão linear não diz nada sobre causalidade! Na melhor das hipóteses, você pode dizer algo sobre causalidade através de um design cuidadoso.


3

Para tornar o caso simétrico, pode-se regredir a diferença entre as duas variáveis ​​( ) versus seu valor médio.Δx


3

A regressão padrão minimiza a distância vertical entre os pontos e a linha, portanto, alternar as 2 variáveis ​​agora minimiza a distância horizontal (dado o mesmo gráfico de dispersão). Outra opção (que tem vários nomes) é minimizar a distância perpendicular, isso pode ser feito usando componentes principais.

Aqui está um código R que mostra as diferenças:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Para procurar outliers, basta plotar os resultados da análise de componentes principais.

Você também pode querer olhar para:

Bland e Altman (1986), Métodos estatísticos para avaliar a concordância entre dois métodos de medição clínica. Lancet, pp 307-310


0

Suas variáveis ​​x1 e x2 são colineares. Na presença de multicolinearidade, suas estimativas de parâmetros ainda são imparciais, mas sua variação é grande, ou seja, sua inferência sobre a significância das estimativas de parâmetros não é válida e sua previsão terá grandes intervalos de confiança.

A interpretação das estimativas de parâmetros também é difícil. Na estrutura de regressão linear, a estimativa de parâmetro em x1 é a mudança em Y para uma mudança de unidade em x1, dado que todas as outras variáveis ​​exógenas no modelo são mantidas constantes. No seu caso, x1 e x2 são altamente correlacionados e você não pode manter x2 constante quando x1 está sendo alterado.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.