O problema da multicolinearidade é bem estudado na maioria dos livros econométricos. Além disso, há um bom artigo na wikipedia que realmente resume a maioria das questões-chave.
Na prática, começa-se a ter em mente o problema da multicolinearidade, se causar alguns sinais visuais de instabilidade de parâmetros (a maioria deles está implícita na invertibilidade não (fraca) da matriz ):XTX
- grandes mudanças nas estimativas de parâmetros durante a execução de regressões ou estimativas contínuas em subamostras menores dos dados
- Na média das estimativas dos parâmetros, o último pode ser insignificante (pelos testes ), embora o teste de regressão junk mostre alta significância conjunta dos resultadostF
- A estatística VIF (valor médio das regressões auxiliares) depende apenas de seus requisitos para o nível de tolerância, a maioria das sugestões práticas colocam uma tolerância aceitável menor que 0,2 ou 0,1, o que significa que as médias correspondentes das regressões auxiliares devem ser maiores que 0,9 ou 0,8 a detectar o problema. Portanto, o VIF deve ser maior que os valores 10 e 5 da regra geral. Em amostras pequenas (menos de 50 pontos), é preferível 5; em maiores, você pode ir para valores maiores. R2
- O índice de condição é uma alternativa ao VIF no seu caso, nem o VIF nem o IC mostram que o problema foi deixado; portanto, você pode ficar satisfeito estatisticamente com este resultado, mas ...
provavelmente não teoricamente, uma vez que pode acontecer (e geralmente é o caso) que você precisa de todas as variáveis presentes no modelo. A exclusão de variáveis relevantes (problema de variável omitida) fará estimativas de parâmetros tendenciosas e inconsistentes de qualquer maneira. Por outro lado, você pode ser forçado a incluir todas as variáveis de foco simplesmente porque sua análise é baseada nela. Na abordagem de mineração de dados, você é mais técnico na busca do melhor ajuste.
Portanto, lembre-se das alternativas (que eu mesmo usaria):
- obter mais pontos de dados (lembre-se de que os requisitos de VIF são menores para um conjunto de dados maior e as variáveis explicativas, se elas estão variando lentamente, podem mudar para alguns pontos cruciais no tempo ou na seção transversal)
- procure fatores latentes através de componentes principais (estes são combinações ortogonais, portanto não multicolineares pela construção, envolvem mais todas as variáveis explicativas)
- regressão de crista (introduz pequeno viés nas estimativas de parâmetros, mas as torna altamente estáveis)
Alguns outros truques estão no artigo wiki mencionado acima.