Como lidar com alta correlação entre preditores em regressão múltipla?


18

Encontrei uma referência em um artigo que é como:

Segundo Tabachnick e Fidell (1996), as variáveis ​​independentes com correlação bivariada maior que 0,70 não devem ser incluídas na análise de regressão múltipla.

Problema: usei em um projeto de regressão múltipla 3 variáveis ​​correlacionadas> 0,80, VIF em cerca de 0,2 - 0,3, Tolerância ~ 4- 5. Não posso excluir nenhuma delas (preditores e resultados importantes). Quando regredi o resultado nos 2 preditores que se correlacionavam em 0,80, eles permaneceram ambos significativos, cada um prevendo variações importantes, e essas mesmas duas variáveis ​​têm os maiores coeficientes de correlação parcial e semipartial entre as 10 variáveis ​​incluídas (5 controles).

Pergunta: Meu modelo é válido apesar das altas correlações? Todas as referências muito bem-vindas!


Obrigado pelas respostas!

Não usei Tabachnick e Fidell como orientação; encontrei essa referência em um artigo que lida com alta colinearidade entre preditores.

Então, basicamente, eu tenho poucos casos para o número de preditores no modelo (muitas variáveis ​​de controle categóricas e codificadas por modelo - idade, posse, sexo, etc.) - 13 variáveis ​​para 72 casos. O Índice de Condição é ~ 29 com todos os controles dentro e ~ 23 sem eles (5 variáveis).

Não posso descartar nenhuma variável ou usar a análise fatorial para combiná-las, porque teoricamente elas têm sentido por si mesmas. É tarde demais para obter mais dados. Como estou conduzindo a análise no SPSS, talvez seja melhor encontrar uma sintaxe para a regressão de crista (embora eu não tenha feito isso antes e a interpretação dos resultados seja nova para mim).

Se importa, quando eu conduzi a regressão passo a passo, as mesmas duas variáveis ​​altamente correlacionadas permaneceram os únicos preditores significativos do resultado.

E ainda não entendo se as correlações parciais altas para cada uma dessas variáveis ​​são importantes para explicar por que as mantive no modelo (caso a regressão de crista não possa ser executada).

Você diria que o "diagnóstico de regressão: identificando dados influentes e fontes de colinearidade / David A. Belsley, Edwin Kuh e Roy E. Welsch, 1980" seria útil para entender a multicolinearidade? Ou outras referências podem ser úteis?


2
Para um exemplo explícito dessa situação, consulte a análise de 10 IVs em stats.stackexchange.com/a/14528 . Aqui, todos os IVs estão fortemente correlacionados (cerca de 60%). Mas se você excluísse todos eles, não teria mais nada! Frequentemente, você não pode eliminar nenhuma dessas variáveis. Isso torna insustentável a recomendação de T&F.
whuber

De fato, existem vários pronunciamentos em Tabachnick e Fidell que eu consideraria pelo menos um tanto duvidosos ... só porque algo é impresso em um livro não significa que sempre faz sentido.
Glen_b -Reinstala Monica

Respostas:


20

O principal problema não é a correlação, mas a colinearidade (ver obras de Belsley, por exemplo). É melhor testado usando índices de condição (disponível em R,SAS e provavelmente outros programas também. A correlação é necessária nem uma condição suficiente para co-linearidade. Índices Condição mais de 10 (por Belsley) indicam collinearity moderada, mais de 30 grave, mas também depende sobre quais variáveis ​​estão envolvidas na colinearidade.

Se você encontrar alta colinearidade, isso significa que suas estimativas de parâmetros são instáveis. Ou seja, pequenas alterações (às vezes na quarta figura significativa) em seus dados podem causar grandes alterações nas estimativas de seus parâmetros (às vezes até revertendo seus sinais). Isso é uma coisa ruim.

As soluções são 1) Obtendo mais dados 2) Descartando uma variável 3) Combinando as variáveis ​​(por exemplo, com mínimos quadrados parciais) e 4) Executando a regressão da crista, que fornece resultados tendenciosos, mas reduz a variação nas estimativas.


Tabachnick e Fidell escreveram um belo livro multivariado para ciências sociais. Eles não são estatististas, mas seu conhecimento de multivariados é muito bom. Mas acho que eles podem criar regras práticas para simplificar e podem perder sutilezas estatísticas. Então, eu confiaria mais no que Peter diz em suas respostas do que em seu artigo.
Michael R. Chernick 27/09/12

Obrigado @MichaelChernick. Na verdade, escrevi minha dissertação sobre diagnóstico de colinearidade para regressão múltipla.
Peter Flom - Restabelece Monica

Suponho que você seja tão velho quanto eu e, portanto, seu trabalho veio depois do trabalho de Belsley, Kuh, Welsch e Cook. Eu sei que o trabalho de Cook foi principalmente sobre outras questões de diagnóstico (alavancagem e não normalidade), mas ele fez alguma coisa sobre multicolinearidade? É claro que o conceito de regressão cume ainda vai voltar antes do meu tempo
Michael R. Chernick

1
@ Peter Flom: Por que a correlação não é uma condição necessária nem suficiente para a colinearidade? Você está se referindo à correlação não linear?
Julian

5
Não é necessário porque, se houver um grande número de variáveis, todos os pares podem ser apenas ligeiramente correlacionados, mas a soma deles é perfeitamente colinear. Não é suficiente, porque há casos em que razoavelmente elevada correlação não produzem problemático collinearity por índices de condição
Peter Flom - Reintegrar Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.