Isto é sobre a variação
O OLS fornece o que é chamado de Melhor Estimador Linear Não Polarizado (AZUL) . Isso significa que, se você tomar qualquer outro estimador imparcial, ele provavelmente terá uma variação maior do que a solução OLS. Então, por que diabos devemos considerar algo além disso?
Agora, o truque da regularização, como o laço ou a crista, é adicionar um pouco de viés para tentar reduzir a variação. Porque quando você estimar o erro de previsão, é uma combinação de três coisas :
E[(y−f^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
A última parte é o erro irredutível, por isso não temos controle sobre isso. Usando a solução OLS, o termo de polarização é zero. Mas pode ser que o segundo termo seja grande. Pode ser uma boa ideia (
se quisermos boas previsões ) adicionar algum viés e reduzir a variação.
Então, o que é este ? É a variação introduzida nas estimativas para os parâmetros em seu modelo. O modelo linear tem a forma
y = X β + ϵ ,Var[f^(x))]
Para se obter a solução OLS que resolver o problema de minimização
arg min p | | y - X β | | 2
Este fornece a solução
β OLS = ( X T X ) - 1 X t y
O problema de minimização para regressão de cumeeira é semelhante:
arg min β | | y - X β | |
y=Xβ+ϵ,ϵ∼N(0,σ2I)
argminβ||y−Xβ||2
β^OLS=(XTX)−1XTy
Agora, a solução torna-se
β cume = ( X T X + λ I ) - 1 X T y
Portanto, estamos adicionando este
λ I (chamado de cume) na diagonal da matriz que invertido. O efeito que isso tem sobre a matriz
X T X é que "
puxa" o determinante da matriz para longe de zero. Assim, quando você o inverte, você não obtém grandes valores próprios. Mas isso leva a outro fato interessante, a saber, que a variação das estimativas de parâmetros se torna menor.
argminβ||y−Xβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)−1XTy
λIXTX
Não tenho certeza se posso fornecer uma resposta mais clara do que isso. Tudo isso se resume à matriz de covariância dos parâmetros no modelo e à magnitude dos valores nessa matriz de covariância.
Tomei a regressão de cume como exemplo, porque é muito mais fácil de tratar. O laço é muito mais difícil e ainda há pesquisas ativas em andamento sobre esse tópico.
Esses slides fornecem mais algumas informações e este blog também possui algumas informações relevantes.
EDIT: O que quero dizer com a adição da crista o determinante é " puxado " para longe de zero?
XTX
det(XTX−tI)=0
tdet(XTX+λI−tI)=0
det(XTX−(t−λ)I)=0
(t−λ)titi+λλ
Aqui está um código R para ilustrar isso:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
O que fornece os resultados:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Portanto, todos os autovalores são alterados em exatamente 3.
Você também pode provar isso em geral usando o teorema do círculo de Gershgorin . Lá, os centros dos círculos que contêm os valores próprios são os elementos diagonais. Você sempre pode adicionar "suficiente" ao elemento diagonal para criar todos os círculos no semiplano real positivo. Esse resultado é mais geral e não é necessário para isso.