Esses métodos - o laço e a rede elástica - nasceram dos problemas de seleção e previsão de recursos. É através dessas duas lentes que acho que uma explicação pode ser encontrada.
Matthew Gunn explica muito bem em sua resposta que esses dois objetivos são distintos e freqüentemente assumidos por pessoas diferentes. No entanto, felizmente para nós, os métodos nos quais estamos interessados podem ter um bom desempenho em ambas as arenas.
Seleção de Recursos
Primeiro, vamos falar sobre a seleção de recursos. Primeiro devemos motivar a rede elástica da perspectiva do laço. Ou seja, para citar Hastie e Zou : "Se existe um grupo de variáveis entre as quais as correlações aos pares são muito altas, o laço tende a selecionar apenas uma variável do grupo e não se importa com a que está selecionada". Este é um problema, por exemplo, porque significa que não é provável que encontremos um elemento do verdadeiro suporte usando o laço - apenas um altamente correlacionado com ele. (O artigo menciona que isso está comprovado no artigo LARS, que ainda não li.) A dificuldade de recuperação do suporte na presença de correlação também é apontada por Wainwright ,0,5 quando houver alta correlação entre o verdadeiro suporte e seu complemento.
Agora, a penalidade de l2 na rede elástica incentiva características que têm coeficientes tratados como indistinguíveis apenas pela penalidade de perda e l1 a ter coeficiente estimado igual. Podemos ver isso vagamente observando que satisfaz. Devido a isso, a rede elástica faz com que seja menos provável que 'acidentalmente' desapareça uma estimativa de coeficiente que está no verdadeiro suporte. Ou seja, é mais provável que o suporte verdadeiro esteja contido no suporte estimado. Isso é bom! Isso significa que há mais descobertas falsas, mas esse é um preço que a maioria das pessoas está disposta a pagar.| a | = | b |( a , b ) = argminuma′, b′: c = | uma′| + | b′|( a′)2+ ( b′)2| a | = | b |
Como um aparte, vale ressaltar que o fato de que recursos altamente correlacionados tenderão a ter estimativas de coeficientes muito semelhantes torna possível detectar grupos de recursos dentro do suporte estimado que influenciam a resposta da mesma forma.
Predição
Agora, passamos à previsão. Como Matthew Gunn aponta, a escolha de parâmetros de ajuste por meio da validação cruzada cria um objetivo de escolher um modelo com erro de previsão mínimo. Como qualquer modelo selecionado pelo laço pode ser selecionado pela rede elástica (assumindo ), faz sentido que a rede elástica seja capaz de encontrar um modelo que preveja melhor que o laço.α = 1
Lederer, Yu e Gaynanova mostram, sob nenhuma premissa sobre os recursos, que o laço e a rede elástica podem ter seu erro de previsão de l2 limitado pela mesma quantidade. Não é necessariamente verdade que seus limites são estreitos, mas isso pode ser interessante notar, pois as desigualdades dos oráculos parecem ser uma maneira padrão na literatura estatística de quantificar o desempenho preditivo dos estimadores - talvez porque as distribuições sejam tão complicadas! Também vale a pena notar que Lederer (1) (2) tem alguns trabalhos sobre previsões de laço na presença de características correlatas.
Sumário
Em resumo, os problemas de interesse são o verdadeiro suporte dentro do suporte e previsão estimados. Para recuperação de suporte, há garantias rigorosamente comprovadas (por meio de Wainwright) de que o laço seleciona os recursos corretos para estar no modelo sob premissas de baixa correlação entre o suporte verdadeiro e seu complemento. No entanto, na presença de correlação, podemos voltar à rede elástica para ter mais chances de selecionar os recursos no verdadeiro suporte entre os que ele seleciona. (Observe que precisamos selecionar cuidadosamente os parâmetros de ajuste aqui.) E, para prever quando escolhemos o parâmetro de ajuste por meio da validação cruzada, faz sentido intuitivo que a rede elástica tenha um desempenho melhor que o laço - especialmente na presença de correlação .
Deixando de lado a previsão e alguma formalidade, o que aprendemos? Aprendemos sobre o verdadeiro apoio.
Intervalos de confiança
Vale ressaltar que muita coisa mudou nos últimos 2 anos no que diz respeito à inferência válida para o laço. Em particular, o trabalho de Lee, Sun, Sun e Taylor fornece inferência exata para os coeficientes do laço, dependendo do modelo selecionado. (Os resultados da inferência no laço para os coeficientes verdadeiros existiam no momento da publicação do OP e estão bem resumidos no artigo vinculado.)