Como escolher entre os diferentes Ajustado

Tenho em mente as fórmulas ajustadas ao quadrado R propostas por:

Ezequiel (1930), que acredito ser o atualmente usado no SPSS.

$R_{a d j u s t e d}^{2} = 1 - \frac{(N - 1)}{(N - p - 1)} (1 - R^{2})$ $R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2)$
Olkin e Pratt (1958)

$R_{u n b i a s e d}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{(N - p - 1)} - \frac{2 (N - 3) (1 - R^{2})^{2}}{(N - p - 1) (N - p + 1)}$ $R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)}$

Em que circunstâncias (se houver) deve prefiro 'ajustada' para 'imparcial' ? $R^2$

Referências

Ezekiel, M. (1930). Métodos de análise de correlação . John Wiley e filhos, Nova York.
Olkin I., Pratt JW (1958). Estimação imparcial de certos coeficientes de correlação. Annals of Mathematics Statistics , 29 (1), 201-211.

regression r-squared

— user1205901 - Restabelecer Monica
fonte

Respostas:

Sem querer assumir o crédito pela resposta @ttnphns, eu queria tirar a resposta dos comentários (especialmente considerando que o link para o artigo havia morrido). A resposta de Matt Krause fornece uma discussão útil da distinção entre e mas não discute a decisão de que fórmula para usar em qualquer caso dado. $R^2$ $R^2_{adj}$ $R^2_{adj}$

Como eu discuto em esta resposta , Yin e Fan (2001) fornecem uma boa visão geral das muitas fórmulas diferentes para estimar a variância da população explicou , os quais poderiam ser rotulado como um tipo de ajustado . $\rho^2$ $R^2$

Eles realizam uma simulação para avaliar qual de uma ampla variedade de fórmulas quadradas r ajustadas fornece a melhor estimativa imparcial para diferentes tamanhos de amostra, e intercorrelações preditivas. Eles sugerem que a fórmula de Pratt pode ser uma boa opção, mas não acho que o estudo tenha sido definitivo sobre o assunto. $\rho^2$

Update: Raju et ai (1997) nota que é ajustada fórmulas diferentes com base em se eles se destinam a estimativa ajustada assumindo-x fixo ou aleatório-x predcitors. Especificamente, a fórmula de Ezekial é projetada para estimar no contexto x fixo, e as fórmulas de Olkin-Pratt e Pratt são projetadas para estimar no contexto x aleatório. Não há muita diferença entre as fórmulas de Olkin-Pratt e Pratt. As premissas de x fixo se alinham às experiências planejadas, as de x aleatórias se alinham quando você assume que os valores das variáveis preditivas são uma amostra dos valores possíveis, como normalmente ocorre nos estudos observacionais. Vejo $R^2$ $R^2$ $\rho^2$ $\rho^2$ esta resposta para uma discussão mais aprofundada . Também não há muita diferença entre os dois tipos de fórmulas, pois o tamanho da amostra fica moderadamente grande (veja aqui uma discussão sobre o tamanho da diferença ).

Resumo das regras de ouro

Se você presumir que suas observações para variáveis preditivas são uma amostra aleatória de uma população e deseja estimar para a população completa de preditores e critérios (ou seja, suposição aleatória x), use a fórmula de Olkin-Pratt (ou a fórmula de Pratt). $\rho^2$
Se você assumir que suas observações são fixas ou não deseja generalizar além dos níveis observados do preditor, faça uma estimativa de com a fórmula de Ezekiel. $\rho^2$
Se você quiser saber sobre a previsão fora da amostra usando a equação de regressão da amostra, deverá procurar alguma forma de procedimento de validação cruzada.

Referências

Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997). Revisão da metodologia: Estimativa da validade e validade cruzada da população e o uso de pesos iguais na previsão. Medida Psicológica Aplicada, 21 (4), 291-305.
Yin, P., & Fan, X. (2001). Estimando encolhimento em regressão múltipla: A comparação de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. PDF $R^2$

— Jeromy Anglim
fonte

$R^2$ $R^2$ $R^2$ $R^2$ $R^2$

$R^2$ $r^2$ $r^2$ $R^2$ $R^2$

— Matt Krause
fonte

Obrigado, achei uma explicação muito clara da diferença entre o quadrado R e o quadrado R ajustado. Na sua opinião, como o quadrado R imparcial se encaixa nessa imagem?

— user1205901 - Reintegrar Monica

De fato, existem várias fórmulas para estimar a população R ^ 2. Veja, por exemplo, studyforquals.pbworks.com/f/yin.pdf . Diz-se que o "R ^ 2 ajustado" de Fisher (= Wherry) é ligeiramente inclinado negativamente (ainda depende do tamanho da amostra e não depende do número de preditores), portanto a versão de Olkin-Pratt é provavelmente um pouco melhor.

— ttnphns

@ttnphns, talvez isso deva ser uma resposta em vez de um comentário. Para mim, parece abordar a questão original mais do que esta resposta.

— gung - Reintegrar Monica

R^{2}

$R^2$ o valor calculado a partir de uma amostra será um pouco menor que o valor "verdadeiro" da população. O gráfico na página 6/138 de uv.es/psicologica/articulos1.03/9.ZUMBO.pdf mostrando como o viés varia com o tamanho da amostra e

R^{2}

$R^2$ valor. A fórmula de Olkin-Pratt corrige esse viés de tamanho da amostra. Parece haver duas versões da fórmula de Olkin-Pratt flutuando, uma das quais também corrige o número de parâmetros (consulte o link ttnphns). De fato, esse documento contém várias tabelas que ajudarão você a escolher um método de correção para sua aplicação específica, portanto vale a pena dar uma olhada.

— Matt Krause

@ttnphns, eu concordo com Gung! Você deve escrever uma resposta e receber algum crédito. Além disso, você pode confirmar o que escrevi? O JStor está agindo de forma estranha hoje e não me deixa ler o artigo original de Olkin e Pratt.

— Matt Krause