Eu costumo ouvir sobre "mínimos quadrados comuns". Esse é o algoritmo mais usado para regressão linear? Existem motivos para usar um diferente?
Eu costumo ouvir sobre "mínimos quadrados comuns". Esse é o algoritmo mais usado para regressão linear? Existem motivos para usar um diferente?
Respostas:
Em relação à pergunta no título, sobre qual é o algoritmo usado:
Em uma perspectiva de álgebra linear, o algoritmo de regressão linear é a maneira de resolver um sistema linear com mais equações que incógnitas. Na maioria dos casos, não há solução para esse problema. E isso ocorre porque o vetor não pertence ao espaço da coluna de , .b A C ( A )
O best straight line
é o que faz com que o erro global tão pequeno quanto for preciso. E é conveniente pensar que o tamanho do quadrado é pequeno, , porque não é negativo e só é igual a 0 quando b \ em C (\ mathbf {A}) . b ∈ C ( A )
Projetar (ortogonalmente) o vetor para o ponto mais próximo no espaço da coluna de fornece o vetor que resolve o sistema (seus componentes estão na melhor linha reta) com o erro mínimo.A b ∗
e o vetor projetado é dado por:
Talvez o método dos mínimos quadrados não seja usado exclusivamente porque isso squaring
compensa demais os valores extremos.
Deixe-me dar um exemplo simples em R, que resolve o problema de regressão usando este algoritmo:
library(fBasics)
reg.data <- read.table(textConnection("
b x
12 0
10 1
8 2
11 3
6 4
7 5
2 6
3 7
3 8 "), header = T)
attach(reg.data)
A <- model.matrix(b~x)
# intercept and slope
inv(t(A) %*% A) %*% t(A) %*% b
# fitted values - the projected vector b in the C(A)
A %*% inv(t(A) %*%A ) %*% t(A) %*% b
# The projection is easier if the orthogonal matrix Q is used,
# because t(Q)%*%Q = I
Q <- qr.Q(qr(A))
R <- qr.R(qr(A))
# intercept and slope
best.line <- inv(R) %*% t(Q) %*% b
# fitted values
Q %*% t(Q) %*% b
plot(x,b,pch=16)
abline(best.line[1],best.line[2])
could not find inv
?!
lm
é QR, há razões para isso, você poderia explicar por quê?
Para responder à letra da pergunta, "mínimos quadrados comuns" não é um algoritmo; ao contrário, é um tipo de problema na álgebra linear computacional, da qual a regressão linear é um exemplo. Geralmente dados e uma função experimental ("modelo") para ajustar os dados, na forma . Os são chamados de "funções " e podem ser de monômeros a funções trigonométricas (por exemplo, , ) e funções exponenciais ( ). O termo "linear" em "regressão linear" aqui não se refere às funções básicas,, em que a derivada parcial do modelo em relação a qualquer um dos fornece o fator multiplicador de ; isto é, .
Agora, matriz retangular ("matriz de design") que (geralmente) possui mais linhas do que colunas, e cada entrada possui o formato , sendo o índice de linha e sendo o índice da coluna. O OLS agora é a tarefa de encontrar o vetor que minimiza a quantidade (na notação da matriz, ; aqui, é geralmente chamado de "vetor de resposta").
Existem pelo menos três métodos usados na prática para calcular soluções de mínimos quadrados: as equações normais, decomposição QR e decomposição de valor singular. Em resumo, são maneiras de transformar a matriz em um produto de matrizes que são facilmente manipuladas para resolver o vetor .
George já mostrou o método das equações normais em sua resposta; basta resolver o conjunto de equações lineares
para . Devido ao fato de a matriz ser simétrica positiva (semi) definida, o método usual usado para isso é a decomposição de Cholesky, que fatores no formato , com uma matriz triangular inferior. O problema com essa abordagem, apesar da vantagem de ser capaz de compactar os matriz de projeto em uma (geralmente) muito menores matriz, é que esta operação é propenso a perda de algarismos significativos (isso tem algo a faça com o "número da condição" da matriz de design).
Uma maneira um pouco melhor é a decomposição do QR, que trabalha diretamente com a matriz de design. É factores como , onde é uma matriz ortogonal (multiplicando uma tal matriz, com a sua transposta dá uma matriz de identidade) e é triangular superior. é posteriormente computado como . Por razões que não abordarei (basta ver qualquer texto de álgebra linear numérica decente, como este ), ele possui melhores propriedades numéricas do que o método das equações normais.
Uma variação no uso da decomposição QR é o método de equações seminormais . Resumidamente, se alguém tiver a decomposição , o sistema linear a ser resolvido assume a forma
Efetivamente, alguém está usando a decomposição QR para formar o triângulo de Cholesky de nessa abordagem. Isso é útil no caso em que é escasso, e o armazenamento explícito e / ou a formação de (ou uma versão fatorada) é indesejável ou impraticável.
Finalmente, a maneira mais cara, porém mais segura, de resolver o OLS é a decomposição de valor singular (SVD). Desta vez, é fatorado como , onde e são ortogonais eA = U Σ V ⊤ U V Σé uma matriz diagonal, cujas entradas diagonais são denominadas "valores singulares". O poder dessa decomposição reside na capacidade de diagnóstico concedida a você pelos valores singulares, pois se alguém vê um ou mais valores singulares minúsculos, é provável que você tenha escolhido um conjunto de bases não totalmente independente, necessitando, assim, de uma reformulação seu modelo. (O "número da condição" mencionado anteriormente está de fato relacionado à razão entre o maior valor singular e o menor; é claro que a razão se torna enorme (e a matriz está, portanto, mal condicionada) se o menor valor singular for "minúsculo" .)
Este é apenas um esboço desses três algoritmos; qualquer bom livro sobre estatística computacional e álgebra linear numérica deve fornecer detalhes mais relevantes.
R^{-1} Q^T y
se A não é quadrado? Você deixa cair as zero linhas em R?
O link do wiki: Métodos de estimativa para regressão linear fornece uma lista bastante abrangente de métodos de estimativa, incluindo OLS e os contextos nos quais métodos alternativos de estimativa são usados.
É fácil se confundir entre definições e terminologia. Ambos os termos são usados, às vezes de forma intercambiável. Uma rápida pesquisa na Wikipedia deve ajudar:
Mínimos Quadrados Ordinários (OLS) é um método usado para ajustar modelos de regressão linear. Devido à consistência e eficiência demonstráveis (sob premissas suplementares) do método OLS, é a abordagem dominante. Veja os artigos para obter mais pistas.
Costumo pensar em 'mínimos quadrados' como um critério para definir a linha de regressão mais adequada (ou seja, aquela que torna a soma dos resíduos 'quadrados' menores '') e o 'algoritmo' nesse contexto como o conjunto de etapas usadas determinar os coeficientes de regressão que atendem a esse critério. Essa distinção sugere que é possível ter algoritmos diferentes que satisfizessem o mesmo critério.
Eu ficaria curioso para saber se outros fazem essa distinção e que terminologia eles usam.
Um livro antigo, no entanto, ao qual me pego repetidamente, é
Lawson, CL e Hanson, RJ Resolvendo problemas dos mínimos quadrados , Prentice-Hall, 1974.
Ele contém uma discussão detalhada e muito legível de alguns dos algoritmos mencionados pelas respostas anteriores. Você pode querer olhar para ele.