Encontrei uma referência em um artigo que é como:
Segundo Tabachnick e Fidell (1996), as variáveis independentes com correlação bivariada maior que 0,70 não devem ser incluídas na análise de regressão múltipla.
Problema: usei em um projeto de regressão múltipla 3 variáveis correlacionadas> 0,80, VIF em cerca de 0,2 - 0,3, Tolerância ~ 4- 5. Não posso excluir nenhuma delas (preditores e resultados importantes). Quando regredi o resultado nos 2 preditores que se correlacionavam em 0,80, eles permaneceram ambos significativos, cada um prevendo variações importantes, e essas mesmas duas variáveis têm os maiores coeficientes de correlação parcial e semipartial entre as 10 variáveis incluídas (5 controles).
Pergunta: Meu modelo é válido apesar das altas correlações? Todas as referências muito bem-vindas!
Obrigado pelas respostas!
Não usei Tabachnick e Fidell como orientação; encontrei essa referência em um artigo que lida com alta colinearidade entre preditores.
Então, basicamente, eu tenho poucos casos para o número de preditores no modelo (muitas variáveis de controle categóricas e codificadas por modelo - idade, posse, sexo, etc.) - 13 variáveis para 72 casos. O Índice de Condição é ~ 29 com todos os controles dentro e ~ 23 sem eles (5 variáveis).
Não posso descartar nenhuma variável ou usar a análise fatorial para combiná-las, porque teoricamente elas têm sentido por si mesmas. É tarde demais para obter mais dados. Como estou conduzindo a análise no SPSS, talvez seja melhor encontrar uma sintaxe para a regressão de crista (embora eu não tenha feito isso antes e a interpretação dos resultados seja nova para mim).
Se importa, quando eu conduzi a regressão passo a passo, as mesmas duas variáveis altamente correlacionadas permaneceram os únicos preditores significativos do resultado.
E ainda não entendo se as correlações parciais altas para cada uma dessas variáveis são importantes para explicar por que as mantive no modelo (caso a regressão de crista não possa ser executada).
Você diria que o "diagnóstico de regressão: identificando dados influentes e fontes de colinearidade / David A. Belsley, Edwin Kuh e Roy E. Welsch, 1980" seria útil para entender a multicolinearidade? Ou outras referências podem ser úteis?