Existe uma razão para preferir uma medida específica de multicolinearidade?


22

Ao trabalhar com muitas variáveis ​​de entrada, geralmente nos preocupamos com a multicolinearidade . Existem várias medidas de multicolinearidade que são usadas para detectar, pensar e / ou comunicar a multicolinearidade. Algumas recomendações comuns são:

  1. O múltiplo para uma variável específica Rj2
  2. A tolerância, , para uma variável específica 1Rj2
  3. O fator de inflação da variação, , para uma variável específica VIF=1tolerance
  4. O número da condição da matriz de design como um todo:

    max(eigenvalue(X'X))min(eigenvalue(X'X))

(Existem outras opções discutidas no artigo da Wikipedia e aqui no SO no contexto de R.)

O fato de os três primeiros serem uma função perfeita um do outro sugere que a única vantagem líquida possível entre eles seria psicológica. Por outro lado, os três primeiros permitem examinar variáveis ​​individualmente, o que pode ser uma vantagem, mas ouvi dizer que o método do número da condição é considerado melhor.

  • Isso é verdade? Melhor para quê?
  • O número da condição é uma função perfeita dos 's? (Eu acho que seria.) Rj2
  • As pessoas acham que um deles é mais fácil de explicar? (Nunca tentei explicar esses números fora da sala de aula, apenas descrevo qualitativamente a multicolinearidade.)

Tenho postado um follow relacionada se pergunta, com respostas para que a suplementação que já está aqui: stats.stackexchange.com/questions/173665/...
kyrenia

Respostas:


15

No final dos anos 90, fiz minha dissertação sobre colinearidade.

Minha conclusão foi que os índices de condição eram melhores.

O principal motivo foi que, em vez de examinar variáveis individuais , ele permite analisar conjuntos de variáveis. Como a colinearidade é uma função de conjuntos de variáveis, isso é uma coisa boa.

Além disso, os resultados do meu estudo de Monte Carlo mostraram melhor sensibilidade à colinearidade problemática, mas há muito tempo esqueci os detalhes.

R2

Para muito mais sobre isso, confira os livros de David Belsley. Ou, se você realmente quiser, pode obter minha dissertação sobre diagnóstico de multicolinearidade para regressão múltipla: um estudo de Monte Carlo


1
Então, aqui está a ideia de que, olhando para os VIFs, você pode concluir erroneamente que a multicolinearidade não é um problema, mas se você tivesse examinado o número da condição, seria mais provável que chegasse à conclusão correta? Talvez algo como um teste com maior poder estatístico?
gung - Restabelece Monica

4
+1. Felizmente, para explicar o número da condição, já temos um encadeamento excelente neste site: é a distorção máxima encontrada na descrição de segunda ordem das variáveis ​​de design como uma nuvem de pontos. Quanto maior a distorção, mais os pontos tendem a estar dentro de um subespaço. Essa percepção geométrica também mostra por que o condicionamento de uma matriz de design centralizada é melhor que o da própria matriz de design bruto.
whuber

1
Bem, é difícil definir exatamente qual é a conclusão "certa"; mas deve ter algo a ver com pequenas alterações nos dados que produzem grandes alterações na saída. Pelo que me lembro, os índices de condição estavam mais diretamente relacionados a isso. Mas o importante era obter as proporções de variação, que permitem ver conjuntos de variáveis ​​e o grau de colinearidade. (Claro, tudo isso foi há 14 anos ... mas eu não acho que as coisas mudaram. As medidas são as mesmas. Mas minha memória pode não ser perfeita).
Peter Flom - Restabelece Monica

3
Gung, um ponto-chave aqui é que o número da condição é independente das coordenadas: permanece inalterado nas recombinações lineares (ortogonais) dos dados. Portanto, ele não pode expressar nada sobre variáveis ​​individuais, mas deve capturar uma propriedade de toda a coleção. Usá-lo assim o isola parcialmente de ser enganado pela maneira como suas variáveis ​​são expressas.
whuber

1
Estive muito atordoado para terminar sua dissertação ainda, mas tem sido realmente útil até agora. Obrigado novamente.
gung - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.