Suponha que você tenha duas variáveis preditoras altamente correlacionadas suponha que ambas estejam centralizadas e dimensionadas (para significar zero, variação uma). Em seguida, a pena de cume no vetor de parâmetros é β 2 1 + β 2 2 enquanto o termo penalidade lasso é | β 1 | + | β 2 | . Agora, como o modelo é supostamente altamente colinear, de modo que x e z mais ou menos podem se substituir na previsão de Y , há muitas combinações lineares de x , z onde simplesmente substituímos em partex,zβ21+β22∣β1∣+∣β2∣xzYx,z para z , funcionará de maneira muito semelhante aos preditores, por exemplo, 0,2 x + 0,8 x , 0,3 x + 0,7 z ou 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zserá igualmente bom como preditores. Agora, observe estes três exemplos: a penalidade de laço nos três casos é igual, é 1, enquanto a penalidade de cordilheira é diferente, é respectivamente 0,68, 0,58, 0,5; portanto, a penalidade de cordilheira prefere ponderação igual de variáveis colineares enquanto penalidade de laço não será capaz de escolher. Essa é uma das razões pelas quais a cordilheira (ou, geralmente, a rede elástica, que é uma combinação linear de penalidades de laço e cordilheira) funcionará melhor com preditores colineares: quando os dados apresentarem poucas razões para escolher entre diferentes combinações lineares de preditores colineares, o laço será apenas "vagueie" enquanto a crista tende a escolher o mesmo peso. Esse último pode ser um palpite melhor para uso com dados futuros! E, se é assim com os dados atuais, pode aparecer na validação cruzada como melhores resultados com o cume.
Podemos ver isso de uma maneira bayesiana: cume e laço implicam informações prévias diferentes, e as informações prévias implícitas no cume tendem a ser mais razoáveis nessas situações. (Essa explicação aqui eu aprendi, mais ou menos, do livro: "Aprendizagem Estatística com Sparsity The Lasso and Generalizations", de Trevor Hastie, Robert Tibshirani e Martin Wainwright, mas neste momento não consegui encontrar uma citação direta).