Na página 223 em Introdução ao aprendizado estatístico , os autores resumem as diferenças entre regressão de cordilheira e laço. Eles fornecem um exemplo (Figura 6.9) de quando "o laço tende a superar a regressão da crista em termos de viés, variância e MSE".
Entendo por que o laço pode ser desejável: resulta em soluções esparsas, pois reduz muitos coeficientes para 0, resultando em modelos simples e interpretáveis. Mas eu não entendo como ele pode superar o cume quando apenas as previsões são de interesse (ou seja, como está obtendo um MSE substancialmente mais baixo no exemplo?).
Com o cume, se muitos preditores quase não afetam a resposta (com alguns preditores tendo um grande efeito), seus coeficientes simplesmente não serão reduzidos a um número pequeno muito próximo de zero ... resultando em algo muito semelhante ao laço ? Então, por que o modelo final teria desempenho pior que o laço?