Multicolinearidade entre ln (x) e ln (x) ^ 2

Estou executando um modelo binomial negativo e uma das minhas variáveis preditoras é uma variável de contagem. Como essa variável estava fortemente inclinada, decidi transformá-la em log.

No entanto, o efeito dessa variável é considerado não linear. No entanto, assim que incluo o termo quadrado no meu modelo, obtenho VIFs dessas duas variáveis que são> 20, enquanto todos os outros preditores permanecem estáveis nos VIFs entre 1 e 5.

No meu entendimento atual, o relacionamento não deve ser linear e, portanto, não deve surgir multicolinearidade.

Alguém pode explicar a causa da multicolinearidade e dar possíveis soluções para esse problema?

multicollinearity logarithm vif

— statsnewby
fonte

Bem, f (x) = x ^ 2, que é onde a colinearidade surge. Se você deseja reduzir a colinearidade entre x e x ^ 2, sugiro centralizar x e depois quadrar a covariável centralizada. Veja esta publicação: theanalysisfactor.com/…

— Brash Equilibrium

Qual é o domínio de

x

$x$ ? Para valores muito pequenos

x

$x$ pode ser considerado aproximadamente

x^{2}

$x^2$ .

— Dan

x é entre 1 e 650, mas após a transformação de log os valores são, obviamente, muito menor (entre 0 e 2,8)

— statsnewby

Parece que você assume a relação entre uma variável e seu quadrado (é o log de

x

$x$ e o quadrado desse log, mas que não é tão importante aqui) não é linear e, portanto, não são correlacionados. Outros já explicaram o erro, mas você pode estar interessado neste tópico relacionado: correlação de Pearson entre uma variável e seu quadrado .

— quer

Respostas:

Exceto por contagens muito pequenas, $\log(x)^2$ é essencialmente uma função linear de $\log(x)$ :

As linhas coloridas são mínimos quadrados $\log(x)^2$ vs $\log(x)$ para várias faixas de contagem $x$ . Eles são extremamente bons uma vez $x$ excede $10$ (e ainda muito bom mesmo quando $x\gt 4$ ou então).

A introdução do quadrado de uma variável às vezes é usada para testar a qualidade do ajuste, mas (na minha experiência) raramente é uma boa escolha como variável explicativa. Para explicar uma resposta não linear, considere estas opções:

Estude a natureza da não linearidade. Selecione variáveis apropriadas e / ou transformação para capturá-lo.
Mantenha a contagem em si no modelo. Ainda haverá colinearidade para contagens maiores, portanto, considere criar um par de variáveis ortogonais de $x$ e $\log(x)$ para obter um ajuste numericamente estável.
Use splines de $x$ (e / ou $\log(x)$ ) para modelar a não linearidade.
Ignore o problema completamente. Se você tiver dados suficientes, um VIF grande pode ser inconseqüente. A menos que seu objetivo seja obter estimativas precisas de coeficientes (que sua vontade de transformar sugere que não é o caso), a colinearidade dificilmente importa.

— whuber
fonte

Esta é a resposta que eu preferiria, pois trata do

l o g (x)

$log(x)$ componente da pergunta, que não fiz abaixo.

— Equilíbrio Brash

obrigado pela resposta, que deixou perfeitamente claro! Como acompanhamento - quero mostrar retornos decrescentes para essa variável e só estou ciente da opção de introduzir um termo ao quadrado. Qual seria uma abordagem mais apropriada considerando o uso de um log?

— Home

Qualquer uma das quatro opções com marcadores seria uma possibilidade.

— whuber

A fonte da colinearidade é que $f(x) = x^2$ . Uma maneira de reduzir a correlação entre $x$ e $x^2$ é centralizar $x$ . Deixei $z=x-E(x)$ e calcular $z^2$ . Como o extremo inferior da escala agora possui grandes valores absolutos, seu quadrado se torna grande, tornando a relação entre $z$ e $z^2$ menos linear do que aquele entre $x$ e $x^2$ . Este conselho vem do The Analysis Factor: http://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/

Nota : Ao interpretar os efeitos, lembre-se de que você dimensionou a covariável. Além disso, alguns pesquisadores podem ter cuidado com o dimensionamento, pois os resultados do seu modelo dependem dos dados. Aqui está uma perspectiva de Andrew Gelman sobre esse assunto: http://andrewgelman.com/2009/07/11/when_to_standar/

— Equilíbrio Brash
fonte

Obrigado! Eu tenho duas perguntas sobre essa abordagem: primeiro, x é o que você está se referindo ao x não transformado ou ln (x)? Centrar ln (x) não levou a grandes melhorias (VIF de 16). Em segundo lugar, você quer dizer a média de X com E (x), portanto, significa centralizar a variável?

— statsnewby

Ah, bom ponto, esqueci essa parte da sua pergunta. Eu me referiria à resposta do @whuber.

— Equilíbrio Brash