Posso simplesmente remover uma das duas variáveis preditivas altamente correlacionadas linearmente?

18

Usando o coeficiente de correlação de Pearson, tenho várias variáveis altamente correlacionadas ( e para 2 pares de variáveis que estão no meu modelo). $\rho = 0.978$ $\rho = 0.989$

O motivo pelo qual algumas das variáveis são altamente correlacionadas é porque uma variável é usada no cálculo para outra variável.

Exemplo:

$B = V / 3000$ e $E = V * D$

$B$ e $E$ têm $\rho = 0.989$

É possível apenas "jogar fora" uma das variáveis?

regression correlation modeling

— TheCloudlessSky
fonte

26

B e E são derivados de V. B e E claramente não são variáveis verdadeiramente "independentes" uma da outra. A variável subjacente que realmente importa aqui é V. Você provavelmente deve desconsiderar B e E nesse caso e manter apenas V.

Em uma situação mais geral, quando você tem duas variáveis independentes muito altamente correlacionadas, você definitivamente deve remover uma delas, porque se depara com o dilema da multicolinearidade e os coeficientes de regressão do seu modelo de regressão relacionados às duas variáveis altamente correlacionadas não são confiáveis. Além disso, em inglês simples, se duas variáveis são tão altamente correlacionadas, elas obviamente transmitem quase exatamente a mesma informação ao seu modelo de regressão. Mas, ao incluir ambos, você está realmente enfraquecendo o modelo. Você não está adicionando informações incrementais. Em vez disso, você está infundindo seu modelo com ruído. Não é uma coisa boa.

Uma maneira de manter variáveis altamente correlacionadas em seu modelo é usar, em vez de regressar, um modelo de Análise de Componente Principal (PCA). Os modelos PCA são feitos para se livrar da multicolinearidade. O problema é que você acaba com dois ou três componentes principais em seu modelo, que geralmente são apenas construções matemáticas e são praticamente incompreensíveis em termos lógicos. Portanto, o PCA é frequentemente abandonado como método sempre que você precisa apresentar seus resultados a um público externo, como gerenciamento, reguladores, etc. Os modelos de PCA criam caixas pretas enigmáticas que são muito difíceis de explicar.

— Sympa
fonte

1

(+1) para a explicação do PCA.

— Steffen

1

Obrigado, esta foi uma ótima explicação. Ouvi e li sobre o PCA, mas este é um projeto final para um curso de pós-graduação em "regressão" que estou fazendo, e o professor só quer que usemos o LR. Independentemente disso, eu realmente aprecio a explicação do PCA e provavelmente a utilizarei por diversão.

— TheCloudlessSky

3

Em certas circunstâncias, as recomendações nesta resposta não funcionariam. Por exemplo, e se o relacionamento verdadeiro for Y = B + E = V / 3000 + V * D? Por fim, as variáveis têm alta correlação devido aos intervalos de V e D no conjunto de dados - que é (ou pode ser) acidente puro - enquanto jogar fora qualquer um de B ou E resultará no modelo errado. Em resumo, "dependência" não é, em geral, uma razão válida para remover algumas variáveis de um modelo; incluir variáveis fortemente dependentes não necessariamente "enfraquece" um modelo; O PCA nem sempre é a saída.

— whuber

@ Whuber, não sei se concordo com seus comentários. Eu pensaria que "dependência" é, em geral, uma razão bastante válida para remover algumas variáveis de um modelo de regressão. Caso contrário, seus coeficientes de regressão não serão confiáveis. No exemplo que você usa que seria problemático para a regressão, uma solução simples é usar a expressão inteira (V / 3000 + V * D) como uma única variável.

— Sympa

3

De maneira mais geral, se o modelo é beta1 * (V / 3000) + beta2 * (V D), você não pode fazer isso: em outras palavras, sua sugestão pressupõe que você conheça uma restrição linear entre os coeficientes. É verdade que os coeficientes de regressão podem ter * VIFs relativamente grandes ou erros padrão, mas com quantidades suficientes de dados - ou com observações bem escolhidas - as estimativas serão suficientemente confiáveis. Portanto, concordamos que há um problema e, de fato, concordo com sua solução como uma das várias alternativas a serem consideradas . Eu discordo que é tão geral e necessário quanto você pensa que é.

— whuber

7

Aqui está uma resposta do ponto de vista de um aprendiz de máquina, embora eu tenha medo de ser derrotado por estatísticos reais por isso.

É possível apenas "jogar fora" uma das variáveis?

Bem, a questão é que tipo de modelo você deseja usar para previsão. Depende, por exemplo, de ...

pode o modelo com preditores correlacionados? Por exemplo, embora o NaiveBayes teoricamente tenha problemas com variáveis correlacionadas, experimentos mostraram que ele ainda pode ter um bom desempenho.
como o modelo processa as variáveis preditoras? Por exemplo, a diferença entre B e V será normalizada em uma estimativa de densidade de probabilidade, talvez a mesma para E e V, dependendo da variação de D (como euforia já disse).
Qual combinação de uso de B e E (um, nenhum, ambos) oferece o melhor resultado, estimado por uma validação cruzada consciente + um teste em um conjunto de validação?

Às vezes, os aprendizes de máquina realizam otimização genética para encontrar a melhor combinação aritmética de um conjunto de preditores.

— Steffen
fonte

7

B é uma transformação linear de V. E representa uma interação entre V e D. Você já pensou em especificar um modelo que é Y = Interceptação + V + D + V: D? Como @ euphoria83 sugere, parece provável que haja pouca variação em D, portanto pode não resolver o seu problema; no entanto, deve pelo menos esclarecer as contribuições independentes de V e D. Certifique-se de centralizar V e D com antecedência.

— russellpierce
fonte

4

+1: Essa sugestão não apenas é uma boa abordagem para o problema em questão, mas mostra que jogar fora as variáveis nem sempre é a abordagem correta (ou mesmo uma boa) para solucionar problemas de colinearidade.

— whuber

0

Se D não é uma constante, então B e E são efetivamente duas variáveis diferentes devido às variações em D. A alta correlação indica que D é praticamente constante ao longo dos dados de treinamento. Se for esse o caso, você pode descartar B ou E.

— euphoria83
fonte

1

D = \frac{n_{1}}{2} * \frac{N_{2}}{n_{2}}

$D = \frac{n_1}{2} * \frac{N_2}{n_2}$

Se você descartar B ou E e tratá-los como equivalentes, estará implicitamente afirmando que V é tudo o que realmente importa. Se for esse o caso, seria melhor reter B no modelo, pois sua interpretação é clara. Além disso, se você manter a E, mas D realmente tem variância limitado, a validade da interpretação de seus resultados seriam ainda mais suspeito (que o normal) para diferentes valores de D.

— russellpierce

Posso simplesmente remover uma das duas variáveis ​​preditivas altamente correlacionadas linearmente?

Posso simplesmente remover uma das duas variáveis preditivas altamente correlacionadas linearmente?