Eu quero selecionar modelos usando regsubsets()
. Eu tenho um quadro de dados chamado olympiadaten (upload de dados: http://www.sendspace.com/file/8e27d0 ). Primeiro anexo esse quadro de dados e, em seguida, começo a analisar, meu código é:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
captura de tela da trama:
O problema agora é que eu quero ajustar o melhor modelo novamente "manualmente" e dar uma olhada nele, mas o valor do R ajustado ao quadrado não é o mesmo da saída de regsubsets? Este também é o caso dos outros modelos, por exemplo, quando eu faço o modelo mais simples do gráfico:
summary(lm(Gesamt~ExpHealth))
O gráfico diz que ele deve ter um R ajustado ao quadrado de cerca de 0,14, mas quando olho para a saída, recebo um valor de 0,06435.
Aqui está a saída de summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
Eu não sei o que eu poderia ter feito de errado, qualquer ajuda seria apreciada.
E por último mas não menos importante, mais algumas perguntas:
- Qual é a diferença entre selecionar modelos pela AIC e pelo adj. R ao quadrado?
- Ambos medem o ajuste e reconhecem o número de variáveis; portanto, o melhor modelo escolhido pela AIC não é também o modelo com o maior ajuste. r ao quadrado?
- Então, o
regsubsets()
comando calcula cada modelo e mostra os dois melhores (nbest=2
) de cada tamanho? - Se sim, realmente recebo o modelo "melhor"?
- E quando eu faço AIC usando a seleção reversa (começando com o modelo que contém todas as variáveis), isso também acaba com o mesmo modelo que
regsubsets()
diz ser o melhor?