Belsley, Kuh e Welsch é o texto a seguir para esse tipo de pergunta. Eles incluem uma extensa discussão sobre diagnósticos mais antigos em uma seção intitulada "Perspectiva histórica". Sobre VIF eles escrevem
... Se assumirmos o dados foram centrados e dimensionada para ter unidade de comprimento, a correlação matriz é simplesmente . ...R X ′ XXRX′X
Estamos considerando . Os elementos diagonais de , , são freqüentemente chamados de fatores de inflação de variação, , e seu valor diagnóstico segue a relação onde é o coeficiente de correlação múltipla de regredido nas demais variáveis explicativas. Claramente, um VIF alto indica um próximo da unidade e, portanto, aponta para colinearidade. Esta medida é, portanto, de alguma utilidade como uma indicação geral de colinearidade. Suas fraquezas, como as de R - 1 r i i VIF i VIF i = 1R−1=(X′X)−1R−1riiVIFi R 2 i XiR 2 i R
VIFi=11−R2i
R2iXiR2iR, reside em sua incapacidade de distinguir entre várias dependências próximas coexistentes e na falta de um limite significativo para distinguir entre valores de VIF que podem ser considerados altos e aqueles que podem ser considerados baixos.
Em lugar de analisar (ou ), BKW propor cuidadoso exame, controlada da decomposição singular do valor de . Eles o motivam, demonstrando que a razão entre o maior e o menor valor singular é o número da condição de e mostram como o número da condição fornece (às vezes apertado) limites na propagação de erros de computação no cálculo das estimativas de regressão. Eles tentam uma decomposição aproximada das variações dos parâmetros estimados em componentes associados aos valores singulares. O poder dessa decomposição reside em sua capacidade (em muitos casos) de revelar a naturezaR - 1 X X β iRR−1XXβ^i da colinearidade, em vez de apenas indicar sua presença.
Qualquer um que tenha construído modelos de regressão com centenas de variáveis apreciará esse recurso! Uma coisa é o software dizer "seus dados são colineares, não posso prosseguir" ou até mesmo dizer "seus dados são colineares, estou jogando fora as seguintes variáveis". É algo muito mais útil poder dizer "o grupo de variáveis está causando instabilidades nos cálculos: veja quais dessas variáveis você pode ou considerar executando uma análise de componentes principais para reduzir seu número ".Xi1,…,Xik
Por fim, a BKW recomenda o diagnóstico de colinearidade por meio de
... a seguinte condição dupla:
- Um valor singular considerado com um alto índice de condição e associado a
- Proporções de variância-decomposição altas para duas ou mais variações estimadas do coeficiente de regressão.
O número de índices de condição considerados grandes (por exemplo, maiores que ) em (1) identifica o número de dependências próximas entre as colunas da matriz de dados , e as magnitudes desses altos índices de condição fornecem uma medida de sua "tensão" relativa. " Além disso, a determinação em (2) de grandes proporções de variância-decomposição (por exemplo, maiores que ) associadas a cada alto índice de condição identifica as variáveis envolvidas na dependência quase correspondente e a magnitude dessas proporções em conjunto com a alta O índice de condição fornece uma medida do grau em que a estimativa de regressão correspondente foi degradada pela presença de colinearidade.X 0,530X0.5