O que é uma estimativa imparcial da população R-quadrado?

Estou interessado em obter uma estimativa imparcial de em uma regressão linear múltipla. $R^2$

Refletindo, posso pensar em dois valores diferentes que uma estimativa imparcial de pode estar tentando corresponder. $R^2$

Fora da amostra : $R^2$ o quadrado r que seria obtido se a equação de regressão obtida da amostra (ou seja, ) fosse aplicada a uma quantidade infinita de dados externos à amostra, mas a partir dos mesmos dados processo de geração. $\hat{\beta}$
População : $R^2$ O quadrado r que seria obtido se uma amostra infinita fosse obtida e o modelo ajustado para essa amostra infinita (isto é, ) ou, alternativamente, apenas o quadrado R implicado pelo processo conhecido de geração de dados. $\beta$

Entendo que ajustado $R^2$ é projetado para compensar o sobreajuste observado na amostra . No entanto, não está claro se ajustado é realmente uma estimativa imparcial de , e se é uma estimativa imparcial, qual dos dois acima definições de É com o objetivo de estimar. $R^2$ $R^2$ $R^2$ $R^2$

Assim, minhas perguntas:

O que é uma estimativa imparcial do que eu chamo acima fora da amostra $R^2$ ?
O que é uma estimativa imparcial do que eu chamo acima população $R^2$ ?
Existem referências que fornecem simulação ou outra prova da imparcialidade?

— Jeromy Anglim
fonte

A pergunta que fórmula para adj. R ^ 2 é menos tendencioso foi gerado, por exemplo, aqui .

— ttnphns

Obrigado. Agora estou lendo a referência que você menciona: Yin, P., & Fan, X. (2001). Estimando

encolhimento em regressão múltipla: A comparação de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224.

R^{2}

$R^2$

— Jeromy Anglim

Avaliação de ajustes analíticos no quadrado R

@ttnphns me encaminhou para o artigo Yin e Fan (2001), que compara diferentes métodos analíticos de estimativa de . De acordo com a minha pergunta, eles discriminam entre dois tipos de estimadores. Eles usam a seguinte terminologia: $R^2$

: Estimador do coeficiente de correlação múltipla da população ao quadrado $\rho^2$
: Estimador do coeficiente de validade cruzada da população ao quadrado $\rho_c^2$

Seus resultados estão resumidos no resumo:

$R^2$ $\rho^2$ $\rho^2$ $\rho_c^2$

$\rho^2$

{\hat{R}}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{(N - p - 1)} [1 + \frac{2 (1 - R^{2})}{N - p - 2.3}]

$\hat{R}^2=1 - \frac{(N-3)(1 - R^2)}{(N-p-1)} \left[ 1 + \frac{2(1-R^2)}{N-p-2.3} \right]$

onde N é o tamanho da amostra ep é o número de preditores.

Estimativas empíricas de ajustes ao quadrado R

$R^2$ $\rho^2$ $\rho_c^2$ $\rho^2$

Referências

Kromrey, JD, & Hines, CV (1995). Uso de estimativas empíricas de retração na regressão múltipla: um cuidado. Medida educacional e psicológica, 55 (6), 901-925.
$R^2$

— Jeromy Anglim
fonte