X e Y não estão correlacionados, mas X é um preditor significativo de Y na regressão múltipla. O que isso significa?


34

X e Y não estão correlacionados (-.01); no entanto, quando coloco X em uma regressão múltipla prevendo Y, ao lado de três (A, B, C) outras variáveis ​​(relacionadas), X e duas outras variáveis ​​(A, B) são preditores significativos de Y. Observe que as outras duas ( A, B) as variáveis ​​estão significativamente correlacionadas com Y fora da regressão.

Como devo interpretar essas descobertas? X prediz variância única em Y, mas, como não estão correlacionadas (Pearson), é de alguma maneira difícil de interpretar.

Conheço casos opostos (ou seja, duas variáveis ​​são correlacionadas, mas a regressão não é significativa) e essas são relativamente mais simples de entender, de uma perspectiva teórica e estatística. Observe que alguns dos preditores estão bastante correlacionados (por exemplo, 0,70), mas não na medida em que eu esperaria uma multicolinearidade substancial. Talvez eu esteja enganado, no entanto.

NOTA: Eu fiz essa pergunta anteriormente e ela foi fechada. O racional era que essa pergunta é redundante com a pergunta " Como uma regressão pode ser significativa, mas todos os preditores não são significativos?". Talvez eu não entenda a outra questão, mas acredito que essas são perguntas inteiramente separadas, matematicamente e teoricamente. Minha pergunta é totalmente independente de se" uma regressão é significativa ". Além disso, vários preditores são significativos, enquanto a outra pergunta implica que as variáveis ​​não são significativas, por isso não vejo sobreposição. Se essas perguntas são redundantes por razões que não compreendo, insira um comentário antes de encerrar esta pergunta. Além disso, esperava enviar uma mensagem ao moderador que fechou o outro pergunta para evitar perguntas idênticas, mas não consegui encontrar uma opção para fazer isso.


2
Eu acho que isso é muito semelhante à pergunta anterior. Se X e Y são essencialmente não correlacionados, em uma regressão linear simples, o coeficiente de inclinação para X não será significativo. Afinal, a estimativa da inclinação é proporcional à correlação da amostra. A regressão múltipla de nozes pode ser uma história diferente, porque X e Z juntos podem explicar muita variabilidade em Y. Como minha resposta soa semelhante às respostas da pergunta anterior, talvez isso indique uma semelhança distinta.
Michael R. Chernick

2
Obrigado pela sua resposta e resposta muito detalhada no outro tópico. Vou precisar lê-lo por um tempo para obter a tese. Minha outra preocupação, suponho, é como interpretá-lo na prática, em vez de talvez estatisticamente ou matematicamente. Digamos, por exemplo, a velocidade da natação e a ansiedade das características não estão correlacionadas, mas a ansiedade das características é um preditor significativo da velocidade da natação em uma regressão múltipla ao lado de outros preditores. Como isso pode fazer sentido, praticamente? Digamos que você estava escrevendo isso na seção de discussão de um jornal clínico!
Behacad 7/08

3
Como você mantém as duas perguntas suficientemente diferentes para não serem consideradas duplicatas, fique à vontade para passar sua resposta para a outra aqui. (Peço desculpas por não ter apreciado a diferença originalmente.) A nova nota, acredito, está incorreta ao supor que as perguntas sejam matematicamente diferentes - @ Michael Chernick ressalta que elas são basicamente as mesmas - mas a ênfase na interpretação estabelece um motivo válido para manter os threads separados.
whuber

11
Eu também mudei a resposta aqui. Eu acho que as duas perguntas são bem diferentes, mas podem compartilhar algumas explicações comuns.
JDav #

11
Esta página da web tem outra ótima discussão sobre tópicos relacionados. É longo, mas muito bom e pode ajudar você a entender os problemas. Eu recomendo lê-lo completamente.
gung - Restabelece Monica

Respostas:


39

A teoria causal oferece outra explicação de como duas variáveis ​​podem ser incondicionalmente independentes e dependentes condicionalmente. Não sou especialista em teoria causal e sou grato por qualquer crítica que corrija qualquer orientação incorreta abaixo.

Para ilustrar, usarei gráficos acíclicos direcionados (DAG). Nestes gráficos, as arestas ( ) entre variáveis ​​representam relações causais diretas. As setas ( ou ) indicam a direção dos relacionamentos causais. Assim, infere que causa directa , e infere que é directamente causada por . é um caminho causal que infere que causa indiretamente a-UMABUMABUMABUMABUMABCUMACB. Para simplificar, suponha que todos os relacionamentos causais sejam lineares.

Primeiro, considere um exemplo simples de viés de confusão :

confundidor

Aqui, uma regressão bivariada simples irá sugerir uma dependência entre e . No entanto, não há nenhuma relação causal directa entre e . Em vez disso, ambos são causados ​​diretamente por e, na regressão bivariável simples, observar induz uma depenendência entre e , resultando em viés por confusão. No entanto, uma regressão de multivariáveis condicionado em irá remover a polarização e sugerir nenhuma dependência entre e .XYXYZZXYZXY

Segundo, considere um exemplo de viés de colisor (também conhecido como viés de Berkson ou viés berksoniano, cujo viés de seleção é um tipo especial):

colisor

Aqui, uma regressão bivariada simples irá sugerir nenhuma dependência entre e . Isto está de acordo com o DAG, que infere nenhuma relação causal directa entre e . No entanto, um condicionamento de regressão multivariável em induzirá uma dependência entre e sugerindo que uma relação causal direta entre as duas variáveis ​​pode existir, quando na verdade nenhuma existe. A inclusão de na regressão multivariável resulta em viés de colisor.XYXYZXYZ

Terceiro, considere um exemplo de cancelamento acidental:

cancelamento

Vamos supor que , e são coeficientes de caminho e que . Uma regressão bivariada simples irá sugerir nenhuma depenence entre e . Embora é, de facto, uma causa directa de , o efeito de confusão de em e , aliás, anula o efeito de em . Um condicionamento de regressão multivariável em removerá o efeito de confusão de em eαβγβ=-αγXYXYZXYXYZZXY, permitindo a estimativa do efeito direto de em , assumindo que o DAG do modelo causal esteja correto.XY

Para resumir:

Confundidor exemplo: e são dependentes em regressão bivariada e independente na regressão de multivariáveis condicionado em confundidor .XYZ

Collider exemplo: e são independentes em regressão bivariada e dependente em regresssion condicionado multivariável em colisor .XYZ

Exemplo cancelamento Inicdental: e são independentes em regressão bivariada e dependente em regresssion condicionado multivariável em confundidor .XYZ

Discussão:

Os resultados da sua análise não são compatíveis com o exemplo de confusão, mas são compatíveis com o exemplo de colisor e o exemplo de cancelamento acidental. Assim, uma possível explicação é que você têm condicionado incorretamente em uma variável colisor em sua regressão multivariada e ter induzido uma associação entre e , mesmo que não é uma causa de e não é uma causa de . Como alternativa, você pode ter condicionado corretamente um fator de confusão em sua regressão multivariável que acidentalmente cancelava o verdadeiro efeito de em em sua regressão bivariada.XYXYYXXY

Acho que usar o conhecimento de base para construir modelos causais é útil ao considerar quais variáveis ​​incluir nos modelos estatísticos. Por exemplo, se estudos randomizados de alta qualidade anteriores concluíssem que causa e causa , eu poderia assumir fortemente que é um colisor de e e não condicioná-lo em um modelo estatístico. No entanto, se eu tivesse apenas uma intuição de que causa e causa , mas nenhuma evidência científica forte corroborasse minha intuição, só poderia fazer uma suposição fraca de queXZYZZXYXZYZZé um colisor de e , pois a intuição humana tem um histórico de ser mal orientada. Subsequentemente, seria cético de inferir relações causais entre e sem mais investigações das suas relações causais com . Em vez de ou além do conhecimento de fundo, também existem algoritmos projetados para inferir modelos causais a partir dos dados usando vários testes de associação (por exemplo, algoritmo PC e FCI, consulte TETRAD para implementação em Java, PCalgXYXYZpara implementação de R). Esses algoritmos são muito interessantes, mas eu não recomendaria confiar neles sem uma forte compreensão do poder e das limitações do cálculo causal e dos modelos causais na teoria causal.

Conclusão:

A contemplação de modelos causais não dispensa o investigador de abordar as considerações estatísticas discutidas em outras respostas aqui. No entanto, acho que os modelos causais podem, no entanto, fornecer uma estrutura útil ao pensar em possíveis explicações para dependência e independência estatística observadas em modelos estatísticos, especialmente ao visualizar potenciais fatores de confusão e colisão.

Leitura adicional:

Gelman, Andrew. 2011. " Causalidade e aprendizagem estatística ". Sou. J. Sociology 117 (3) (novembro): 955–966.

Groenlândia, S, J Pearl e JM Robins. 1999. " Diagramas Causais para Pesquisa Epidemiológica ". Epidemiology (Cambridge, Mass.) 10 (1) (janeiro): 37–48.

Gronelândia, Sander. 2003. “ Quantificando vieses em modelos causais: confusão clássica versus viés de estratificação de colisores ”. Epidemiology 14 (3) (1 de maio): 1 de maio: 300-306.

Pearl, Judéia. 1998. Por que não há teste estatístico para confusão, por que muitos pensam que existe e por que estão quase certos .

Pearl, Judéia. 2009. Causalidade: Modelos, Raciocínio e Inferência . 2nd ed. Cambridge University Press.

Spirtes, Peter, Clark Glymour e Richard Scheines. 2001. Causation, Prediction, and Search , Segunda Edição. Um livro de Bradford.

Atualização: Judea Pearl discute a teoria da inferência causal e a necessidade de incorporar a inferência causal nos cursos introdutórios de estatística na edição de novembro de 2012 da Amstat News . Também é interessante sua palestra sobre o prêmio Turing , intitulada "A mecanização da inferência causal: um 'mini' teste de Turing e além".


Os argumentos causais são certamente válidos, mas para o pesquisador se inscrever nessa abordagem, é necessário um conhecimento muito bom dos fenômenos subjacentes. Gostaria de saber se a análise que @Behacad está realizando é apenas exploratória.
JDav #

11
@ Behacad: Como mencionado na minha resposta, sugiro que você esqueça o único, pois seu problema é multivariado e não bivariado. Para medir a influência de sua variável de interesse, você precisa controlar outras fontes de variação que possam distorcer a influência medida de x. ρ
JDav #

5
+1 As ilustrações e explicações são muito claras e bem feitas. Obrigado pelo esforço e pesquisa que (obviamente) foram para esta resposta.
whuber

11
Além disso, alguém poderia me dar um exemplo prático de "Terceiro, considere um exemplo de cancelamento acidental?". A questão da causalidade surge. Se X e Y não estão correlacionados (ou seja, alterações em X não estão associadas a alterações em Y "), como poderíamos considerar essa" causa ". É exatamente isso que estou pensando em outra pergunta! Stats.stackexchange.com/questions / 33638 /…
Behacad 9/08/2012

4
Vale a pena notar que existem alguns nomes alternativos para eles: Confundidor -> Modelo de Causa Comum; Collider -> Modelo de Efeito Comum; O cancelamento acidental é um caso especial de mediação parcial.
gung - Restabelece Monica

22

Eu acho que a abordagem de @ jthetzel é a correta (+1). Para interpretar esses resultados, você terá que pensar / ter alguma teoria sobre por que os relacionamentos se manifestam como eles. Ou seja, você precisará pensar no padrão de relacionamentos causais subjacentes aos seus dados. Você precisa reconhecer que, como aponta @jthetzel, seus resultados são consistentes com vários processos diferentes de geração de dados. Não creio que qualquer quantidade de testes estatísticos adicionais no mesmo conjunto de dados permita distinguir entre essas possibilidades (embora experimentos adicionais certamente o possam fazer). Portanto, pensar muito sobre o que se sabe sobre o tópico é vital aqui.

Quero destacar outra possível situação subjacente que pode gerar resultados como o seu: Supressão . É mais difícil ilustrar usando os diagramas de seta, mas se eu puder aumentá-los um pouco, poderíamos pensar assim:

insira a descrição da imagem aqui

Outra variávelvocêRSupressorYOutra variávelSupressorYSupressorOutra variável nessa situação (e, portanto, novamente, você precisa pensar em qual padrão subjacente pode ser baseado no seu conhecimento da área).

SupressorYOutra variávelY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Meu argumento aqui não é que essa situação seja a que sustenta seus dados. Não sei se isso é mais ou menos provável do que as opções sugeridas por @jthetzel. Só ofereço isso como mais alimento para o pensamento. Para interpretar seus resultados atuais, você precisa pensar nessas possibilidades e decidir o que faz mais sentido. Para confirmar sua escolha, será necessária uma experimentação cuidadosa.


2
Excelente! Obrigado. Isso serve como outro bom exemplo do que poderia estar acontecendo nos meus dados. Parece que eu só pode aceitar uma resposta, embora ...
Behacad

Sem problemas, @Behacad, acho que jthetzel merece a marca de seleção; Estou feliz em ajudar.
gung - Restabelece Monica

7

Apenas alguma visualização que é possível.

Na figura (a) é mostrada uma situação regressiva "normal" ou "intuitiva". Esta foto é a mesma que, por exemplo, encontrada (e explicada) aqui ou aqui .

YY^b

b1 1b2X1 1X2

insira a descrição da imagem aqui

X1 1YYX1 1YX2

X1 1YX1 1

Dados e análises correspondentes aproximadamente à figura (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

insira a descrição da imagem aqui

Dados e análises correspondentes aproximadamente à figura (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

insira a descrição da imagem aqui

X1 1Y-.224X2.419.538


Obrigado! Ele ainda se sente um pouco contra-intuitivo, mas pelo menos suas fotos mostram que é viável :)
JelenaČuklina

5

Concordo com a resposta anterior, mas espero poder contribuir, dando mais detalhes.

XYxy

Y=uma+βx+você

ρ^yx=β^σ^x/σ^y

Y

Y=uma+βx+jαjzj+você

βzjρρxy|zzj


ρρ
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.