Faz sentido estudar parcelas de resíduos com relação à variável dependente?


11

Eu gostaria de saber se faz sentido estudar os gráficos de resíduos com relação à variável dependente quando eu tiver uma regressão univariada. Se faz sentido, o que significa uma correlação forte, linear e crescente entre os resíduos (no eixo y) e os valores estimados da variável dependente (no eixo x)?

insira a descrição da imagem aqui


3
Não sei o que você quer dizer com "forte, linear, crescente correlação". Você pode mostrar o enredo? É perfeitamente razoável plotar resíduos contra os valores ajustados. Em geral, você deseja que não haja relacionamento - uma linha horizontal plana que atravessa o centro. Além disso, você deseja que a dispersão vertical dos resíduos seja constante do lado esquerdo do gráfico para a direita.
gung - Restabelece Monica

Oi. Obrigado pela sua resposta. Este é o enredo: img100.imageshack.us/img100/7414/bwages.png
Luigi

Isso é desconcertante. Deixe-me entender: você executou um modelo de regressão e depois plotou os resíduos versus os valores ajustados, e foi isso que você conseguiu, certo? Não deveria ser assim. Você pode editar sua pergunta e colar o código usado para o modelo e o gráfico?
gung - Restabelece Monica

Você entendeu certo. Sinto muito, mas não sei como recuperar o código, executei a regressão e plotei os resíduos com o programa Gretl.
Luigi

2
Inicialmente, não vi o comentário de @ mark999 quando escrevi minha resposta abaixo. Eu acho que sua suspeita está correta, que isso é resíduo versus valores y. Luigi, refaça seu gráfico - não tente interpretá-lo quando estiver errado sobre quais são as variáveis.
Michael Bishop

Respostas:


12

Suponha que você tenha a regressão , em que . Então, . Quanto maior o valor , maior o residual. Pelo contrário, um gráfico dos resíduos contra deve mostrar nenhuma relação sistemática. Além disso, o valor previsto deve ser aproximadamente --- o mesmo para todas as observações. Se todos os valores previstos forem aproximadamente os mesmos, eles não deverão ser correlacionados com os erros.β 10 y i - β 0ε i y x y i β 0yi=β0+β1xi+ϵiβ10yiβ0ϵiyxy^iβ^0

O que o enredo está me dizendo é que e são essencialmente independentes (claro, há melhores maneiras de mostrar isso). Informe-nos se o seu coeficiente não estiver próximo de 0.y β 1xyβ^1

Para um diagnóstico melhor, use uma plotagem dos resíduos contra o salário previsto ou contra o valor . Você não deve observar um padrão distinto nessas plotagens.x

Se você quiser uma pequena demonstração de R, aqui está:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

β1=0

5

Supondo que o modelo estimado esteja especificado corretamente ...

PX=X(XX)1XPXPX2=PXPX=PX

Cov(Y^,e^)=Cov(PXY,(IPX)Y)=PXCov(Y,Y)(IPX)=σ2PX(IPX)=0

Portanto, o gráfico de dispersão de resíduos contra a variável dependente prevista não deve mostrar correlação.

Mas!

Cov(Y,e^)=Cov(Y,(IPX)Y)=Cov(Y,Y)(IPX)=σ2(IPX)

σ2(IPX)

Tanto quanto eu sei, Gretl produz por padrão o gráfico de resíduos contra a variável dependente original (não a prevista!).


Eu aprecio a possibilidade diferente. É aqui que algum conhecimento sobre Gretl é útil. Eu me pergunto, no entanto, quão plausível é que essa seja a resposta real. Usando meus dados simulados, correlacionei e plotei resíduos versus dv original; r = 0,22 e o gráfico se parece muito com o meu terceiro gráfico, não o gráfico de perguntas. Obviamente, trabalhei nesses dados para verificar a plausibilidade da minha história - eles podem não ser adequados para verificar a sua.
gung - Restabelece Monica

@gung Como assim você usou seus dados simulados?
Michael Bishop

@ MichaelBishop se você olhar para a minha resposta, verá que simulei dados para experimentar minha história e ver se ela se pareceria com a trama publicada. Meu código e gráficos são apresentados. Desde que eu especifiquei a semente, ela pode ser reproduzida por qualquer pessoa com acesso a R.
gung - Reinstate Monica

4

É possível que você esteja confundindo valores ajustados / previstos com os valores reais?

Como o @gung e o @biostat disseram, você espera que não exista relação entre valores ajustados e resíduos. Por outro lado, encontrar uma relação linear entre os valores reais da variável dependente / resultado e os resíduos é esperado e não é particularmente informativo.

Adicionado para esclarecer a frase anterior: Não se espera apenas uma relação linear entre resíduos e valores reais de saída ... Para valores medidos baixos de Y, os valores previstos de Y de um modelo útil tendem a ser maiores que os valores reais medidos e vice-versa.


A implicação do que você está dizendo é que, se os valores são subestimados consistentemente em valores baixos de Y e superestimados consistentemente em valores altos de Y, tudo bem. Isso é um problema, certo?
Rolando2

@ rolando2, não impliquei o que você diz que impliquei, embora talvez deva esclarecer minha resposta. Como você disse, subestimar de forma consistente em valores baixos de Y e prever em valores altos de Y seria um sinal de um modelo muito ruim. Imaginei o oposto, imprevisível com valores baixos de Y e subprevisível com valores altos de Y. Esse fenômeno é comum e deve ser esperado aproximadamente na proporção de quanto da variação na variável dependente você é capaz de explicar. Imagine que você não têm quaisquer variáveis que predizem Y, então você sempre usar a média como a sua previsão
Michael Bishop

1
o que você disse faz sentido para mim, exceto por uma coisa. Estou tendo problemas para imaginar que uma tendência tão forte quanto a que Luigi demonstrou poderia aparecer em uma solução sólida ou desejável, mesmo que a tendência fosse do canto superior esquerdo para o canto inferior direito.
Rolando2

1
@ rolando2, os resíduos são tipicamente definidos como observados - ajustados, portanto, os resíduos negativos são super-previsões. Em um modelo adequadamente especificado, com pouco poder explicativo - sou cientista social, então vejo isso o tempo todo -, haverá uma forte relação positiva entre os resíduos e os valores de resultado observados. Se esse é um gráfico residual versus real, uma tendência do canto superior esquerdo para o inferior direito seria o sinal de um modelo mal especificado com o qual você se preocupou inicialmente.
Michael Bishop

Ok, minha culpa. Como Michael Bishop e Roah escreveram, Gretl traça resíduos com relação ao y observado , não ao previsto. Sinto muito por toda essa bagunça, realmente não esperava todas essas respostas. Sou iniciante e cometi esse erro; espero que você possa "me perdoar". Enfim, acho que isso deveria me indicar que eu deveria ter usado mais variáveis ​​explicativas. Obrigado a todos!
Luigi

3

As respostas oferecidas estão me dando algumas idéias sobre o que está acontecendo aqui. Eu acredito que pode ter havido alguns erros cometidos por acidente. Veja se a seguinte história faz sentido: Para começar, acho que provavelmente existe uma forte relação entre X e Y nos dados (aqui estão alguns códigos e um gráfico):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

insira a descrição da imagem aqui

Mas, por engano, Y foi previsto apenas a partir da média. Além disso, os resíduos do modelo médio único são plotados contra X, embora o que se pretendesse fosse plotar contra os valores ajustados (código e plotagem):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

insira a descrição da imagem aqui

Podemos corrigir isso ajustando o modelo apropriado e plotando os resíduos a partir dele (código e plotagem):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

insira a descrição da imagem aqui

Parece apenas o tipo de brincadeira que eu fiz quando estava começando.


0

Este gráfico indica que o modelo que você instalou não é bom. Como o @gung disse nos primeiros comentários sobre a questão principal, não deve haver relação entre resposta predicada e residual.

"um analista deve esperar que um modelo de regressão cometa erros ao prever uma resposta de maneira aleatória; o modelo deve prever valores mais altos que o real e mais baixos que o real com igual probabilidade. Veja isso "

Eu recomendaria a resposta da primeira parcela versus variável independente para ver a relação entre elas. Pode ser razoável adicionar termos polinomiais no modelo.


0

Não é isso o que acontece se não houver relação entre a variável X e Y? Olhando para este gráfico, parece que você está essencialmente prevendo Y com sua média.


0

Acho que o OP representou resíduos versus a variável de resposta original (não a variável de resposta ajustada do modelo). Eu vejo gráficos assim o tempo todo, com quase o mesmo padrão exato. Certifique-se de plotar resíduos versus valores ajustados, pois não tenho certeza de que inferência significativa você poderia obter dos resíduos versus o Y original. Mas eu certamente poderia estar errado.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.