Não há garantia de que ter pesos menores seja realmente melhor. A regressão do laço e da cordilheira funciona impondo conhecimentos / suposições / restrições prévias na solução. Essa abordagem funcionará bem se as anteriores / premissas / restrições forem adequadas à distribuição real que gerou os dados e, caso contrário, poderão não funcionar bem. Em relação à simplicidade / complexidade, não são os modelos individuais que são mais simples ou mais complexos. Pelo contrário, é a família de modelos em consideração.
Do ponto de vista geométrico, a regressão do laço e da crista impõe restrições aos pesos. Por exemplo, a penalidade comum / forma lagrangiana de regressão de crista:
minβ∥y−Xβ∥22+λ∥β∥22
pode ser reescrito na forma de restrição equivalente:
minβ∥y−Xβ∥22s.t. ∥β∥22≤c
Isso deixa claro que a regressão da crista restringe os pesos a ficarem dentro de uma hiperesfera cujo raio é governado pelo parâmetro de regularização. Da mesma forma, o laço restringe os pesos a ficarem dentro de um polítopo cujo tamanho é governado pelo parâmetro de regularização. Essas restrições significam que a maior parte do espaço original dos parâmetros está fora dos limites e procuramos os pesos ideais em um subespaço muito menor. Esse subespaço menor pode ser considerado menos 'complexo' que o espaço total.
De uma perspectiva bayesiana, pode-se pensar na distribuição posterior sobre todas as opções possíveis de pesos. A regressão do laço e da cordilheira é equivalente à estimativa do MAP após a colocação de um prior nos pesos (o laço usa um anterior laplaciano e a regressão do cordão usa um anterior gaussiano). Um posterior mais estreito corresponde a uma maior restrição e menor complexidade, pois alta densidade posterior é atribuída a um conjunto menor de parâmetros. Por exemplo, multiplicar a função de probabilidade por um prior gaussiano estreito (que corresponde a uma grande penalidade de cordilheira) produz um posterior mais estreito.
Uma das principais razões para impor restrições / prévios é que a escolha do modelo ideal de uma família mais restrita tem menos probabilidade de superajustar do que a escolha de uma família menos restrita. Isso ocorre porque a família menos restrita oferece 'mais' maneiras de ajustar os dados, e é cada vez mais provável que um deles seja capaz de ajustar flutuações aleatórias no conjunto de treinamento. Para um tratamento mais formal, consulte a troca de viés e variância . Isso não significa necessariamente que a escolha de um modelo de uma família mais restrita funcione bem. Obter um bom desempenho exige que a família restrita realmente contenha bons modelos. Isso significa que precisamos escolher uma restrição prévia / que seja adequada ao problema específico em questão.