Treinei um modelo de regressão linear, usando um conjunto de variáveis / recursos. E o modelo tem um bom desempenho. No entanto, percebi que não há variável com uma boa correlação com a variável prevista. Como isso é possível?
Treinei um modelo de regressão linear, usando um conjunto de variáveis / recursos. E o modelo tem um bom desempenho. No entanto, percebi que não há variável com uma boa correlação com a variável prevista. Como isso é possível?
Respostas:
Um par de variáveis pode mostrar alta correlação parcial (a correlação responsável pelo impacto de outras variáveis), mas baixa ou mesmo zero - correlação marginal (correlação pareada).
O que significa que a correlação pareada entre uma resposta, y e algum preditor, x pode ter pouco valor na identificação de variáveis adequadas com valor "preditivo" (linear) entre uma coleção de outras variáveis.
Considere os seguintes dados:
y x
1 6 6
2 12 12
3 18 18
4 24 24
5 1 42
6 7 48
7 13 54
8 19 60
A correlação entre y e x é . Se eu chamar a linha dos mínimos quadrados, é perfeitamente horizontal e R 2 é, naturalmente, vai ser 0 .
Mas quando você adiciona uma nova variável g, que indica de qual dos dois grupos as observações vieram, x se torna extremamente informativo:
y x g
1 6 6 0
2 12 12 0
3 18 18 0
4 24 24 0
5 1 42 1
6 7 48 1
7 13 54 1
8 19 60 1
O de um modelo de regressão linear com ambos o x e g variáveis em que vai ser um.
É possível que esse tipo de coisa aconteça com todas as variáveis do modelo - que todas tenham uma pequena correlação pareada com a resposta, mas o modelo com todas elas é muito bom em prever a resposta.
Leitura adicional: