Como é possível obter um bom modelo de regressão linear quando não há correlação substancial entre o produto e os preditores?

Treinei um modelo de regressão linear, usando um conjunto de variáveis / recursos. E o modelo tem um bom desempenho. No entanto, percebi que não há variável com uma boa correlação com a variável prevista. Como isso é possível?

— Zaratruta
fonte

Essas são ótimas respostas, mas a pergunta está faltando muitos detalhes que as respostas estão se esforçando para preencher. A maior pergunta em minha mente é o que você quer dizer com "boa correlação".

— DHW

Possível duplicata de Uma variável de controle não informativa pode se tornar útil?

— User3684792

Um par de variáveis pode mostrar alta correlação parcial (a correlação responsável pelo impacto de outras variáveis), mas baixa ou mesmo zero - correlação marginal (correlação pareada).

O que significa que a correlação pareada entre uma resposta, y e algum preditor, x pode ter pouco valor na identificação de variáveis adequadas com valor "preditivo" (linear) entre uma coleção de outras variáveis.

Considere os seguintes dados:

A correlação entre y e x é . Se eu chamar a linha dos mínimos quadrados, é perfeitamente horizontal e é, naturalmente, vai ser . $0$ $R^2$ $0$

Mas quando você adiciona uma nova variável g, que indica de qual dos dois grupos as observações vieram, x se torna extremamente informativo:

O de um modelo de regressão linear com ambos o x e g variáveis em que vai ser um. $R^2$

É possível que esse tipo de coisa aconteça com todas as variáveis do modelo - que todas tenham uma pequena correlação pareada com a resposta, mas o modelo com todas elas é muito bom em prever a resposta.

Leitura adicional:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

— Glen_b -Reinstate Monica
fonte

R^{2}

$R^2$

g

$g$

R^{2}

$R^2$

g

$g$

y = x - 41 g

$y=x - 41g$

Esse foi realmente o modelo pelo qual a resposta foi criada; mas você pode ver imediatamente que é linear simplesmente imaginando levantar os pontos azuis em uma unidade arbitrária (em sua direção a partir da superfície da tela, ao longo de uma nova direção do eixo "g") e vendo um plano se encaixar nos seis pontos.

— Glen_b -Reinstala Monica

Na regressão, as variáveis X são condicionadas e geralmente podem ser controladas; portanto, "independência" não é geralmente o que se procura. Fora de experimentos projetados, preditores independentes quase nunca são vistos em nenhum caso, e se você os projetou, os preditores não são variáveis aleatórias, de modo que "independência" (no sentido estatístico) não é o que você está olhando - é algo como ortogonalidade mútua, presumivelmente. ...

— ctd

ctd ... Se você realmente quer dizer independência estatística (mútua / p-variável) de todos os preditores, não receberá coeficientes exatamente zero em regressões univariadas dessa maneira, mas também não precisará de separação completa, como no exemplo acima .

— Glen_b -Reinstala Monica

$X_1$ $X_2$

$X_2$ $X_1$ $X_1$ $\rho_{x_{1},y|x_{2}}$ $y=\beta_1X_1 +\beta_2X_2 + \epsilon$ $\rho_{x_{1},y}$

— Ray Yang
fonte

$X$ $X$ $X$ $X$ $X$ $X={x_1,x_2 ...}$ $o_i$ $p_i$ $c_i$ $\sum c_io_i =0$ $\sum c_ix_i$ $\sum c_io_i =0$ $\sum c_ix_i$ $X_1$ $X_2$ $E$ $X'_1$ $X'_2$ $E$ $X_1$ $X'_1$ $X_2$ $X'_2$ $E$ $X'_1$ $X'_2$ $Y$ $Y$

— Acumulação
fonte