Qual é a conexão entre regularização e o método de multiplicadores de intervalos de tempo?

Para evitar o excesso de ajuste nas pessoas, adicione um termo de regularização (proporcional à soma quadrada dos parâmetros do modelo) com um parâmetro de regularização à função de custo da regressão linear. Esse parâmetro o mesmo que um multiplicador de intervalo? Então, a regularização é igual ao método do multiplicador de lagrange? Ou como esses métodos estão conectados? $\lambda$ $\lambda$

regression optimization regularization

— asmaier
fonte

Digamos que estamos otimizando um modelo com parâmetros , minimizando algum critério sujeito a uma restrição na magnitude do vetor de parâmetro (por exemplo, para implementar uma abordagem de minimização de risco estrutural por construindo um conjunto aninhado de modelos de crescente complexidade), precisaríamos resolver: $\vec{\theta}$ $f(\vec{\theta})$

$\mathrm{min}_\vec{\theta} f(\vec{\theta}) \quad \mathrm{s.t.} \quad \|\vec{\theta}\|^2 < C$

O Lagrangiano para esse problema é (ressalva: acho que foi um longo dia ... ;-)

$\Lambda(\vec{\theta},\lambda) = f(\vec{\theta}) + \lambda\|\vec{\theta}\|^2 - \lambda C.$

Portanto, pode-se ver facilmente que uma função de custo regularizado está intimamente relacionada a um problema de otimização restrito, com o parâmetro de regularização relacionado à constante que governa a restrição ( ) e é essencialmente o multiplicador de Lagrange. $\lambda$ $C$

Isso ilustra por que, por exemplo, a regressão de cume implementa a minimização de risco estrutural: Regularização é equivalente a restringir a magnitude do vetor de peso e, se , todos os modelos que podem ser feitos enquanto obedecem à restrição que $C_1 > C_2$

$\|\vec{\theta}\|^2 < C_2$

também estará disponível sob a restrição

$\|\vec{\theta}\|^2 < C_1$ .

Portanto, a redução de gera uma sequência de espaços de hipóteses de crescente complexidade. $\lambda$

— Dikran Marsupial
fonte