A melhor maneira de entender esses termos é fazer um cálculo de regressão manualmente. Escrevi duas respostas estreitamente relacionadas ( aqui e aqui ), mas elas podem não ajudá-lo totalmente a entender seu caso particular. Mas leia-os mesmo assim. Talvez eles também o ajudem a conceituar melhor esses termos.
Em uma regressão (ou ANOVA), construímos um modelo com base em um conjunto de dados de amostra que nos permite prever resultados de uma população de interesse. Para fazê-lo, os três componentes que se seguem são calculadas em uma regressão linear simples a partir do qual pode ser calculada dos outros componentes, por exemplo, os quadrados médios, o valor F, o R2 (também a ajustada R2 ), e o erro padrão residual ( RSE ):
- soma total de quadrados ( SStotal )
- somas residuais de quadrados ( SSresidual )
- somas de quadrados do modelo ( SSmodel )
Cada um deles está avaliando quão bem o modelo descreve os dados e é a soma das distâncias ao quadrado dos pontos de dados até o modelo ajustado (ilustrado como linhas vermelhas no gráfico abaixo).
O SStotal avaliar quão bem os ataques médios dos dados. Por que dizer? Como a média é o modelo mais simples em que podemos ajustar e, portanto, serve como o modelo ao qual a linha de regressão dos mínimos quadrados é comparada. Esse gráfico usando o cars
conjunto de dados ilustra que:
SSresidual
SSmodelSStotalSSresidual
Para responder às suas perguntas, primeiro vamos calcular os termos que você deseja entender começando com modelo e saída como referência:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
A soma dos quadrados é a distância ao quadrado dos pontos de dados individuais do modelo:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Os quadrados médios são as somas de quadrados calculadas pela média dos graus de liberdade:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Minhas respostas para suas perguntas:
Q1:
- Portanto, essa é realmente a distância média dos valores observados da linha lm?
RSEMSresidual
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSresidualMSresidual SSresidualRSErepresenta a distância média dos dados observados do modelo. Intuitivamente, isso também faz todo sentido, porque se a distância for menor, o ajuste do modelo também será melhor.
Q2:
- Agora, estou ficando confuso porque, se o RSE nos diz a que distância nossos pontos observados se desviam da linha de regressão, um RSE baixo está realmente nos dizendo "seu modelo está se ajustando bem com base nos pontos de dados observados" -> assim, quão bem nossos modelos se ajustam , qual é a diferença entre R ao quadrado e RSE?
R2SSmodelSStotal
# R squared
r.sq <- ss.model/ss.total
r.sq
R2SStotalSSmodel
RSER2RSE
R2
Q3:
- É verdade que podemos ter um valor F indicando um forte relacionamento NÃO LINEAR, de modo que nosso RSE seja alto e nosso R ao quadrado seja baixo
FMSmodelMSresidual
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
F
Sua terceira pergunta é um pouco difícil de entender, mas concordo com a citação que você forneceu.