Quando remover variáveis ​​correlacionadas


Respostas:


8

Você não deseja remover todas as variáveis ​​correlacionadas. Somente quando a correlação é tão forte é que eles não transmitem informações extras. Isso é uma função da força da correlação, da quantidade de dados que você possui e se alguma pequena diferença entre as variáveis ​​correlacionadas diz algo sobre o resultado, afinal.

Os dois primeiros que você pode dizer antes de fazer qualquer modelo, o final não. Portanto, pode ser muito razoável remover variáveis ​​com base na combinação das duas primeiras considerações (ou seja, mesmo que as variáveis ​​extras possam, em princípio, conter algumas informações úteis, você não seria capaz de saber, dada a força da correlação e a quantidade de dados você possui) antes de executar qualquer modelagem / engenharia de recursos. O ponto final só pode realmente ser avaliado após a modelagem.


2

Estranho que ninguém mais tenha mencionado interpretabilidade .

Se você só se preocupa com o desempenho , não faz sentido remover duas variáveis ​​correlacionadas, a menos que correlação = 1 ou -1; nesse caso, uma das variáveis ​​é redundante.

Mas se estiver preocupado com a interpretabilidade, pode fazer sentido remover uma das variáveis, mesmo que a correlação seja leve. Isto é particularmente verdade para modelos lineares. Um dos pressupostos da regressão linear é a falta de multicolinearidade perfeita nos preditores.

Se A estiver correlacionado com B, não será possível interpretar os coeficientes nem de A nem B. Para ver por que, imagine o caso extremo em que A = B (correlação perfeita). Então, o modelo y = 100 * A + 50 * B é o mesmo que o modelo y = 5 * A + 10 * B ou y = -2000 * A + 4000 * B. Existem vários equilíbrios nas soluções possíveis para o problema de minimização do quadrado mínimo, portanto você também não pode "confiar".

Coisas semelhantes podem acontecer com outros modelos. Por exemplo, se A estiver muito correlacionado com B, se a árvore de decisão escolher A dobrar os tempos como B, não será possível dizer que A é mais importante que B. Se você treinar novamente o modelo, o contrário poderia ter acontecido.




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.