Qual é a diferença entre a soma residual dos quadrados e os mínimos quadrados comuns?


8

Eles parecem a mesma coisa para mim, mas não tenho certeza.

Atualização: em retrospecto, essa não era uma pergunta muito boa. OLS refere-se ao ajuste de uma linha aos dados e o RSS é a função de custo usada pelo OLS. Ele encontra os parâmetros que fornecem a menor soma residual de erros quadrados . Isso é chamado de comum no OLS refere-se ao fato de estarmos fazendo um ajuste linear.

Respostas:


12

Aqui está uma definição da Wikipedia :

Nas estatísticas, a soma residual dos quadrados (RSS) é a soma dos quadrados dos resíduos. É uma medida da discrepância entre os dados e um modelo de estimativa; Os mínimos quadrados ordinários (OLS) são um método para estimar os parâmetros desconhecidos em um modelo de regressão linear, com o objetivo de minimizar as diferenças entre as respostas observadas em alguns conjuntos de dados arbitrários e as respostas previstas pela aproximação linear dos dados.

Portanto, o RSS é uma medida de quão bom o modelo aproxima os dados, enquanto o OLS é um método de construir um bom modelo.


Você não tem idéia de como sua resposta é útil!
NoName 12/03

5

Mínimos Quadrados Ordinários (OLS)

Os mínimos quadrados ordinários (OLS) são o cavalo de batalha das estatísticas. Ele fornece uma maneira de obter resultados complicados e explicar o comportamento (como tendências) usando linearidade. A aplicação mais simples do OLS é ajustar uma linha.

Residuals

Os resíduos são os erros observáveis ​​dos coeficientes estimados. Em certo sentido, os resíduos são estimativas dos erros.

Vamos explicar as coisas usando o Rcódigo:

Primeiro, ajuste uma linha menos quadrada comum de conjuntos de dados de diamante na UsingRbiblioteca:

library(UsingR)
data("diamond")
y <- diamond$price
	x <- diamond$carat
n <- length(y)
olsline <- lm(y ~ x)
plot(x, y,
     main ="Odinary Least square line",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)

insira a descrição da imagem aqui

Agora, vamos calcular o resíduo, isto é, a soma dos quadrados residuais: Rvocê pode facilmente calcular o resíduo como resid(olsline), para visualização, vamos calculá-lo manualmente:

# The residuals from R method
e <- resid(olsline)
## Obtain the residuals manually, get the predicated Ys first
yhat <- predict(olsline)
# The residuals are y -yhat, Let's check by comparing this with R's build in resid function
ce <- y - yhat
max(abs(e-ce))
## Let's do it again hard coding the calculation of Yhat
max(abs(e- (y - coef(olsline)[1] - coef(olsline)[2] * x)))
# Residuals arethe signed length of the red lines
plot(diamond$carat, diamond$price,
    main ="Residuals sum of (actual Y - predicted Y)^2",
     xlab = "Mass (carats)", 
     ylab = "Price (SIN $)", 
     bg = "lightblue", 
     col = "black", cex = 2, pch = 21,frame = FALSE)
abline(olsline, lwd = 2)
for (i in 1 : n) 
  lines(c(x[i], x[i]), c(y[i], yhat[i]), col = "red" , lwd = 2)

insira a descrição da imagem aqui

Espero que esta visualização esclareça suas dúvidas entre RSS e OLS


Referência: classe Coursera Regression Models , eu a completei recentemente.
precisa saber é o seguinte

1

De certa forma, o OLS é um modelo para estimar a linha de regressão com base nos dados de treinamento. Embora, o RSS seja um parâmetro para saber a precisão do modelo para os dados de teste e treinamento.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.