Para ilustração, tomarei um modelo de regressão menos complexo onde as variáveis preditoras e podem ser correlacionadas. Digamos que as inclinações e são ambas positivas, portanto podemos dizer que (i) aumenta à medida que aumenta, se é mantido constante, pois é positivo; (ii) aumenta à medida que aumenta, se é mantido constante, uma vez que é positivo.Y= β1+ β2X2+ β3X3+ ϵX2X3β2β3YX2X3β2YX3X2β3
Observe que é importante interpretar múltiplos coeficientes de regressão considerando o que acontece quando as outras variáveis são mantidas constantes ("ceteris paribus"). Suponha que eu apenas regredi contra com um modelo . Meu estimativa para o coeficiente de inclinação , que mede o efeito em de um aumento de uma unidade na sem segurando X 3 constante, pode ser diferente da minha estimativa de β 2 a partir da regressão múltipla - que também mede o efeito sobre Y de um aumento de uma unidade em XYX2Y= β′1+ β′2X2+ ϵ′β′2YX2 X3β2YX2 , masnãoesperaX3 constante. O problema com minha estimativaβ′2^ é que ele sofreum viés de variável omitidaseX2 eX3 estão correlacionados.
Para entender por que, imagine X2 e estão negativamente correlacionados. Agora, quando eu aumento em uma unidade, sei que o valor médio de deve aumentar desde . Mas, como aumenta, se não segurar constante, então tende a diminuir, e desde presente tenderá a reduzir o valor médio de . Portanto, o efeito geral de um aumento de uma unidade em parecerá mais baixo se eu permitir que também varie, portanto, . As coisas pioram com mais forçaX3X2Yβ2> 0X2X3X3β3> 0YX2X3β′2< β2X2X 3 X 3 β 3 β ′ 2 < 0 X 2 Ye estão correlacionados, e quanto maior o efeito de a - em um caso muito grave, podemos encontrar mesmo sabendo que, ceteris paribus, tem uma influência positiva em !X3X3β3β′2< 0X2Y
Espero que agora você possa ver por que desenhar um gráfico de relação a seria uma maneira ruim de visualizar o relacionamento entre e em seu modelo. No meu exemplo, seu olho seria atraído para uma linha que melhor se ajusta à inclinação que não reflete o do seu modelo de regressão. Na pior das hipóteses, seu modelo pode prever que aumenta à medida que aumenta (com outras variáveis mantidas constantes) e, no entanto, os pontos no gráfico sugerem que diminui à medida que aumenta.YX2YX2β′2^β2^YX2YX2
O problema é que, no gráfico simples de contra , as outras variáveis não são mantidas constantes. Esse é o insight crucial sobre o benefício de um gráfico variável adicionado (também chamado de gráfico de regressão parcial) - ele usa o teorema de Frisch-Waugh-Lovell para "parcializar" o efeito de outros preditores. Os eixos horizontais e verticais no gráfico são talvez mais facilmente entendidos * como " após a contabilização de outros preditores" e " após a contabilização de outros preditores". Agora você pode observar a relação entre e depois que todos os outros preditores tiverem sido contabilizadosYX2X2YYX2 . Assim, por exemplo, a inclinação que você pode ver em cada gráfico agora reflete os coeficientes de regressão parciais do seu modelo de regressão múltipla original.
Muito do valor de um gráfico de variável adicionado vem no estágio de diagnóstico de regressão, especialmente porque os resíduos no gráfico de variável adicionado são precisamente os resíduos da regressão múltipla original. Isso significa que discrepâncias e heterocedasticidade podem ser identificadas de maneira semelhante a quando se observa o gráfico de um modelo de regressão simples e não múltiplo. Pontos influentes também podem ser vistos - isso é útil na regressão múltipla, pois alguns pontos influentes não são óbvios nos dados originais antes de você levar em consideração as outras variáveis. No meu exemplo, um valor moderadamente grande pode não parecer fora de lugar na tabela de dados, mas se o valor for grande também, apesar de eX2X3X2X3sendo negativamente correlacionada, a combinação é rara. "Contabilizando outros preditores", esse valor é extraordinariamente grande e destacará mais proeminentemente o gráfico de variáveis adicionado.X2
∗ Mais tecnicamente, eles seriam os resíduos da execução de duas outras regressões múltiplas: os resíduos da regressão contra todos os preditores que não vão no eixo vertical, enquanto os resíduos da regressão contra todos os outros preditores vão no eixo horizontal. Isso é realmente o que as lendas de " deram aos outros" e " deram aos outros" estão dizendo. Como o resíduo médio de ambas as regressões é zero, o ponto médio de ( dado a outros,YX2X2YX2X2Ydado outros) será apenas (0, 0), o que explica por que a linha de regressão no gráfico de variáveis adicionadas sempre passa pela origem. Mas, muitas vezes, acho que mencionar os eixos são apenas resíduos de outras regressões confunde as pessoas (sem surpresa, talvez porque agora estamos falando de quatro regressões diferentes!), Por isso tentei não me deter no assunto. Compreenda-os como " deu a outros" e " deu a outros" e você deve ficar bem.X2Y