Por que o quadrado R ajustado é menor que o quadrado R se o quadrado ajustado prediz melhor o modelo?


15

Tanto quanto eu entendo, explica o quão bem o modelo prevê a observação. Ajustado R 2 é a que tem em conta as observações mais (ou graus de liberdade). Então, ajustado R 2 prevê o modelo melhor? Então por isso é menos do que R 2 ? Parece que muitas vezes deveria ser mais.R2R2R2R2

Respostas:


30

mostra a relação linear entre as variáveis independentes e a variável dependente. É definido como 1 - S S ER2 que é a soma dos erros do quadrado dividida pela soma total dos quadrados. SSTO=SSE+SSR,que são o erro total e a soma total dos quadrados de regressão. À medida que variáveis ​​independentes são adicionadas,SSRcontinuará a subir (e desde queSSTOé fixo)SSEdiminuirá eR21SSESSTOSSTO=SSE+SSRSSRSSTOSSER2 continuará a subir, independentemente de quão importante as variáveis que você adicionou são.

A Ajustado está tentando conta o encolhimento estatística. Modelos com toneladas de preditores tendem a ter um desempenho melhor na amostra do que quando testados fora da amostra. O R 2 ajustado "penaliza" você por adicionar variáveis ​​preditoras extras que não melhoram o modelo existente. Pode ser útil na seleção de modelos. Ajustado R 2 será igual a R 2 para uma variável de previsão. Como você adicionar variáveis, será menor do que R 2 .R2R2R2R2R2


Não está claro como o quadrado R ajustado atinge as propriedades apontadas. Ou seja, qual é a fórmula e como ela causa as propriedades?
Alexey Voytenko

Adj R ^ 2 = 1 - ((n-1) / (n - k-1)) (1 - R ^ 2)
mountainclimber

Onde k = número de variáveis independentes, n = # observações
mountainclimber

tentando explicar o encolhimento estatístico - talvez por sobreajuste?
Richard Hardy

-1

R ^ 2 explica a proporção da variação em sua variável dependente (Y) explicada por suas variáveis ​​independentes (X) para um modelo de regressão linear.

Enquanto R ^ 2 ajustado diz a proporção da variação em sua variável dependente (Y) explicada por mais de 1 variáveis ​​independentes (X) para um modelo de regressão linear.


11
A distinção que você está fazendo entre "variáveis ​​independentes" e "mais de 1 variáveis ​​independentes" não é clara. Além disso, citando Andy a partir de baixo, "Você realmente não adiciona novas informações ao que foi fornecido antes".
Ameba diz Reinstate Monica

-2

O R-quadrado aumenta mesmo quando você adiciona variáveis ​​que não estão relacionadas à variável dependente, mas o R-quadrado ajustado cuida disso, pois diminui sempre que você adiciona variáveis ​​que não estão relacionadas à variável dependente, portanto, depois de tomar cuidado, é provável diminuir.


3
Dado que esta pergunta já tem uma resposta aceita, isso deve ser mais um comentário. Você realmente não adiciona novas informações às fornecidas anteriormente.
Andy
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.