Coeficiente de determinação (

Quero entender completamente a noção de $r^2$ descrevendo a quantidade de variação entre variáveis. Toda explicação na web é um pouco mecânica e obtusa. Eu quero "entender" o conceito, não apenas usar mecanicamente os números.

Por exemplo: Horas estudadas versus pontuação no teste

$r$ = 0,8

$r^2$ = 0,64

Então o que isso quer dizer?
64% da variabilidade dos resultados dos testes pode ser explicada por horas?
Como sabemos disso apenas ao quadrado?

regression correlation variance

— JackOfAll
fonte

sua pergunta não é sobre R vs R-quadrado (você entende que

{0.8}^{2} = 0.64

$0.8^2=0.64$ ) é sobre interpretação de

r^{2}

$r^2$ . Por favor reformule o título.

— precisa saber é o seguinte

uma pergunta semelhante: stats.stackexchange.com/questions/28139/…

— Abe

@amoeba concordou, eu puxei a etiqueta.

— Brett

Você precisa de

para determinar o significado. Veja também: stats.stackexchange.com/a/265924/99274 .

n

$n$

— Carl

Respostas:

Comece com a idéia básica de variação. Seu modelo inicial é a soma dos desvios ao quadrado da média. O valor R ^ 2 é a proporção dessa variação contabilizada usando um modelo alternativo. Por exemplo, o quadrado-R indica quanto da variação em Y você pode se livrar somando as distâncias ao quadrado de uma linha de regressão, em vez da média.

Acho que isso fica perfeitamente claro se pensarmos no simples problema de regressão traçado. Considere um gráfico de dispersão típico em que você tenha um preditor X ao longo do eixo horizontal e uma resposta Y ao longo do eixo vertical.

A média é uma linha horizontal no gráfico em que Y é constante. A variação total em Y é a soma das diferenças quadráticas entre a média de Y e cada ponto de dados individual. É a distância entre a linha média e cada ponto individual ao quadrado e somado.

Você também pode calcular outra medida de variabilidade depois de ter a linha de regressão do modelo. Essa é a diferença entre cada ponto Y e a linha de regressão. Em vez de cada quadrado (Y - a média), obtemos o quadrado (Y - o ponto na linha de regressão) ao quadrado.

Se a linha de regressão não for horizontal, obteremos menos distância total quando usarmos essa linha de regressão ajustada em vez da média - ou seja, haverá menos variação inexplicada. A razão entre a variação extra explicada e a variação original é o seu R ^ 2. É a proporção da variação original na sua resposta que é explicada ajustando essa linha de regressão.

Aqui está um código R para um gráfico com a média, a linha de regressão e os segmentos da linha de regressão para cada ponto para ajudar a visualizar:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

— Brett
fonte

> A razão entre a variação explicada e a variação original é seu R ^ 2 Vamos ver se entendi. Se a variação original da média totalizar 100 e a variação da regressão totalizar 20, a razão = 20/100 = .2 Você está dizendo R ^ 2 = 0,2 b / c 20% da variação média (vermelho) é contabilizada para pela variação explicada (verde) (no caso de r = 1) Se a variação original totalizar 50 e a variação da regressão totalizar 0, a razão = 0/50 = 0 = 0% da variação da média ( vermelho) é explicada pela variação (verde) eu esperaria explicou R ^ 2 para ser 1, não 0.

— JackOfAll

R ^ 2 = 1- (SSR / SST) ou (SST-SSR) / SST. Portanto, em seus exemplos, R ^ 2 = 0,80 e 1,00. A diferença entre a linha de regressão e cada ponto é a que não foi explicada pelo ajuste. O resto é a proporção explicada. Caso contrário, isso é exatamente correto.

— Brett

Eu editei esse último parágrafo para tentar torná-lo um pouco mais claro. Conceitualmente (e computacionalmente) tudo o que você precisa está lá. Pode ser mais claro para realmente adicionar a fórmula e referem-se à SST SSE e SSR, mas então eu estava tentando chegar a ele conceitualmente

— Brett

ie: R ^ 2 é a proporção da variação total da média (SST) que é a diferença entre o valor esperado da regressão e o valor médio (SSE). No meu exemplo de horas versus escore, o valor da regressão seria o escore esperado do teste com base na correlação com as horas estudadas. Qualquer variação adicional disso é atribuída ao SSR. Para um dado ponto, as horas estudadas variável / regressão explicaram x% da variação total da média (SST). Com um alto valor de r, "explicado" é uma grande porcentagem de SST em comparação com SSR. Com um baixo valor de r, "explicado" é uma porcentagem menor de SST em comparação com SSR.

— precisa saber é o seguinte

@BrettMagill, acho que o link para a imagem está quebrado ...

— Garrett

Aqui está uma demonstração matemática da relação entre os dois: correlação de Pearson e análise de regressão de mínimos quadrados .

~~Não tenho certeza se existe uma intuição geométrica ou qualquer outra que possa ser oferecida além da matemática, mas se eu conseguir pensar em uma, atualizarei esta resposta.~~

Atualização: Intuição Geométrica

Aqui está uma intuição geométrica que eu criei. Suponha que você tem duas variáveis e que são média centrado. (Supondo que a média seja centralizada, vamos ignorar a interceptação que simplifica um pouco a intuição geométrica.) Vamos primeiro considerar a geometria da regressão linear. Na regressão linear, modelamos $x$ $y$ $y$ seguinte forma:

$y = x\ \beta + \epsilon$ .

$y_1,y_2$ $x_1,x_2$ ). Podemos vê-los como vetores no espaço bidimensional, como mostra a figura abaixo:

texto alternativo http://a.imageshack.us/img202/669/linearregression1.png

$\beta$ $x\ \beta$ $y$ $\beta$ $x$ $\hat{\beta}$ $\beta$ $y$ $\hat{y} = x\ \hat{\beta}$

$y = \hat{y} + \hat{\epsilon}$

$y$ $\hat{y}$ $\hat{\epsilon}$ $\hat{\beta}$

$\beta$ $x\ \beta$ $\hat{\epsilon}$

$y$ $y$ $x$ $y$ $y_1^2+y_2^2$ $y$ $\hat{y}$ $\hat{y}$ e a origem e assim por diante.

Pelo teorema de Pitágoras, temos:

$y^2 = \hat{y}^2 + \hat{\epsilon}^2$

$x$ $\frac{\hat{y}^2}{y^2}$ $cos(\theta) = \frac{\hat{y}}{y}$

Portanto, temos o relacionamento necessário:

$y$ $x$

Espero que ajude.

Agradeço sua tentativa de ajudar, mas, infelizmente, isso só piorou as coisas em 10x. Você está realmente introduzindo trigonometria para explicar r ^ 2? Você é inteligente demais para ser um bom professor!

— JackOfAll

Eu pensei que você queria saber por que a correlação ^ 2 = R ^ 2. De qualquer forma, diferentes maneiras de entender o mesmo conceito ajudam ou pelo menos essa é a minha perspectiva.

O applet Regression By Eye pode ser útil se você estiver tentando desenvolver alguma intuição.

Permite gerar dados e adivinhar um valor para R , que você pode comparar com o valor real.

— ars
fonte