Quando podemos falar de colinearidade

16

Nos modelos lineares, precisamos verificar se existe um relacionamento entre as variáveis explicativas. Se eles se correlacionam demais, há colinearidade (ou seja, as variáveis se explicam parcialmente). Atualmente, estou apenas olhando para a correlação pareada entre cada uma das variáveis explicativas.

Pergunta 1: O que classifica como muita correlação? Por exemplo, uma correlação de Pearson de 0,5 é demais?

Pergunta 2: Podemos determinar completamente se há colinearidade entre duas variáveis com base no coeficiente de correlação ou depende de outros fatores?

Pergunta 3: Uma verificação gráfica do gráfico de dispersão das duas variáveis adiciona algo ao que o coeficiente de correlação indica?

correlation linear-model multicollinearity

— Stefan
fonte

2

A colinearidade (singularidade) entre 3 ou mais variáveis não é reduzida apenas a altas correlações pareadas. Pesquise no site perguntas com a tag "multicolinearidade". Além disso, recomendo que você leia esta minha resposta: stats.stackexchange.com/a/70910/3277 .

— ttnphns 27/05

15

Não existe uma 'linha clara' entre pouca colinearidade e muita colinearidade (exceto no sentido trivial de que é definitivamente demais). Os analistas normalmente não pensam em como muita colinearidade entre duas variáveis. Uma regra prática em relação à multicolinearidade é que você tem muito quando o VIF é maior que 10 (provavelmente porque temos 10 dedos, então use essas regras pelo valor). A implicação seria que você tem muita colinearidade entre duas variáveis se . Você pode ler mais sobre o VIF e a multicolinearidade na minha resposta aqui: $r = 1.0$ $r = .50$ $r \ge .95$ Qual é o efeito de ter preditores correlacionados em um modelo de regressão múltipla?
$r \ge .95$
É sempre inteligente olhar para seus dados, e não simplesmente resumos numéricos / resultados de testes. A referência canônica aqui é o quarteto de Anscomb .

— Repor a Monica
fonte

3

Minha opinião sobre as três perguntas é

Questão 1 O que classifica como muita correlação? Por exemplo: uma correlação de Pearson de 0,5 é demais?

Muitos autores argumentam que a (multi) colinearidade não é um problema. Dê uma olhada aqui e aqui para uma opinião bastante ácida sobre o assunto. A conclusão é que a multicolinearidade não afeta os testes de hipóteses além de ter um tamanho de amostra menor (efetivo). Será difícil para você interpretar os coeficientes de regressão se fizer uma regressão, por exemplo, mas você não violará nenhuma suposição básica se optar por fazê-lo.

Questão 2 Podemos determinar completamente se há colinearidade entre duas variáveis com base no coeficiente de correlação ou se depende de outros fatores?

Eu acho que existem várias maneiras de medir a correlação entre duas variáveis, a partir do cálculo do coeficiente de correlação de Pearson (se você assumir linearidade, e, aparentemente, você fez isso), para postos de Spearman , correlação distância , e até mesmo fazendo PCA em seu conjunto de dados. Mas eu deixaria a resposta desta pergunta para pessoas mais bem informadas do que eu.

Questão 3 Uma verificação gráfica do gráfico de dispersão das duas variáveis acrescenta algo ao que o coeficiente de correlação indica?

IMO, a resposta é não som.

— pedrofigueira
fonte

3

IMHO, a resposta a (3) é, pelo contrário, um sim muito forte: enquanto o coeficiente de correlação pode fornecer apenas uma única avaliação numérica da linearidade de um relacionamento, uma rápida olhada no gráfico de dispersão fornecerá uma riqueza de informações adicionais sobre isso relacionamento, incluindo comportamentos que não eram esperados anteriormente. No entanto, o interesse real nesse conjunto de perguntas está em como avaliar os relacionamentos entre três ou mais variáveis (apesar de como (3) foi realmente redigido) e, nesse caso, mesmo uma matriz de gráficos de dispersão não revela tudo, como observa @ttnphns.

— whuber

1

Quanto a (1), li sua referência (ao blog de Dave Gile) de maneira diferente: ele argumenta que o teste formal da multicolinearidade é equivocado. Não o vejo alegando que a multicolinearidade não é um problema.

— whuber

Meu entendimento da resposta de Dave Gile é que a única maneira pela qual a multicolinearidade afeta os resultados será através de um tamanho de amostra menor equivalente. Portanto, assim como não faz sentido testar um tamanho pequeno de amostra, não faz sentido testar o impacto da multicolinearidade. Mas eu ficaria feliz em ouvir sua opinião sobre isso, talvez eu tenha entendido errado.

— pedrofigueira 27/05

Bem, precisar de um tamanho de amostra maior pode ser um grande impacto para a maioria dos estudos! Um efeito mais sutil da quase colinearidade diz respeito à construção de modelos e seleção de variáveis, conforme discutido ( entre outros ) em threads como stats.stackexchange.com/questions/50537 e stats.stackexchange.com/a/28476/919 . Mas vamos ter certeza de que estamos falando das mesmas coisas: Giles está discutindo testes formais de multicolinearidade, como se as variáveis independentes fossem amostradas aleatoriamente. Aqui, a preocupação parece focada no uso de diagnósticos de multicolinearidade para entender os recursos e as limitações de um modelo.

— whuber

1

Uma maneira comum de avaliar a colinearidade é com fatores de inflação de variação (VIFs). Isso pode ser alcançado em R usando a função 'vif' dentro do pacote 'car'. Isso tem uma vantagem em olhar apenas as correlações entre duas variáveis, pois avalia simultaneamente a correlação entre uma variável e o restante das variáveis no modelo. Em seguida, fornece uma pontuação única para cada preditor no modelo.

Como mencionado acima, não há um ponto de corte rápido e difícil, mas as pontuações do VIF geralmente são decididas como problemáticas uma vez que estão entre 5 e 10. Eu uso regras de campo específicas para isso. Além disso, não há nada necessariamente inválido no uso de preditores correlacionados (desde que não estejam perfeitamente correlacionados). Você precisará apenas de mais dados para separar os efeitos. Quando você não tiver dados suficientes, haverá grandes incertezas nas estimativas de parâmetros dos preditores correlacionados e essas estimativas serão sensíveis à nova amostragem.

Para responder às suas perguntas especificamente:

Não use coeficientes de correlação. use VIFs do modelo com todos os preditores e sem interações. Os VIFs de 5 a 10 estão indicando muita correlação; seu ponto de corte específico depende do que você precisa fazer com o modelo.
Depende dos outros preditores do modelo, e é por isso que é benéfico usar VIFs.
Não! As estatísticas quantificarão melhor o que você está observando com o gráfico de dispersão. A menos que haja uma super violação das suposições do OLS ao regredir seus preditores entre si.

— colin
fonte