A regularização líquida elástica é sempre preferida à Lasso & Ridge, pois parece resolver as desvantagens desses métodos? Qual é a intuição e qual é a matemática por trás da rede elástica?

— GeorgeOfTheRF
fonte

Confira Hastie et al. "Os elementos da aprendizagem estatística", capítulos 3 e 18 (procure "rede elástica").

— Richard Hardy

1. Qual método é o preferido?

Sim, a rede elástica é sempre preferida à regressão de laço e cordilheira, porque resolve as limitações de ambos os métodos, incluindo também cada um como casos especiais. Portanto, se a solução de cume ou laço é realmente a melhor, qualquer boa rotina de seleção de modelo identificará isso como parte do processo de modelagem.

Comentários ao meu post apontaram que as vantagens da rede elástica não são desqualificadas. Eu persisto em minha crença de que a generalidade da regressão rede elástica ainda é preferível ou $L^1$ ou $L^2$ regularização por conta própria. Especificamente, acho que os pontos de discórdia entre mim e os outros estão diretamente ligados às suposições que estamos dispostos a fazer sobre o processo de modelagem. Na presença de um forte conhecimento sobre os dados subjacentes, alguns métodos serão preferidos a outros. No entanto, minha preferência por rede elástica está enraizada no meu ceticismo de que se saiba com confiança que $L^1$ ou $L^2$ é o verdadeiro modelo.

Reivindicação: O conhecimento prévio pode evitar uma das necessidades de usar a regressão líquida elástica.

Isso é um pouco circular. Perdoe-me se isso é um pouco superficial, mas se você souber que o LASSO (cume) é a melhor solução, não se perguntará como modelá-lo adequadamente; você apenas ajustará um modelo LASSO (cume). Se você está absolutamente certo de que a resposta correta é a regressão LASSO (cume), está claramente convencido de que não haveria razão para perder tempo ajustando uma rede elástica. Mas se você estiver um pouco menos certo se o LASSO (cume) é a maneira correta de proceder, acredito que faça sentido estimar um modelo mais flexível e avaliar a força com que os dados suportam a crença anterior.

Reivindicação: Dados modestamente grandes não permitirão a descoberta de soluções $L^1$ ou $L^2$ como preferidas, mesmo nos casos em que a solução $L^1$ ou $L^2$ for o verdadeiro modelo.

Isso também é verdade, mas acho que é circular por um motivo semelhante: se você estimou uma solução ideal e descobriu que $\alpha\not\in \{0,1\},$ esse é o modelo que os dados suportam. Por um lado, sim, seu modelo estimado não é o modelo verdadeiro, mas devo me perguntar como alguém saberia que o modelo verdadeiro é $\alpha=1$ (ou $\alpha=0$ ) antes de qualquer estimativa de modelo. Pode haver domínios em que você tenha esse tipo de conhecimento prévio, mas meu trabalho profissional não é um deles.

Reivindicação: A introdução de hiperparâmetros adicionais aumenta o custo computacional da estimativa do modelo.

Isso é relevante apenas se você tiver limitações de tempo / computador apertadas; caso contrário, é apenas um incômodo. GLMNET é o algoritmo padrão-ouro para estimar soluções de rede elástica. O usuário fornece algum valor de alfa e usa as propriedades de caminho da solução de regularização para estimar rapidamente uma família de modelos para uma variedade de valores da magnitude de penalização $\lambda$ , e muitas vezes pode estimar essa família de soluções mais rapidamente do que estimar apenas uma solução para um valor específico $\lambda$ . Portanto, sim, o uso do GLMNET consigna você ao domínio do uso de métodos no estilo de grade (itere sobre alguns valores de $\alpha$ e deixe o GLMNET tentar uma variedade de $\lambda$ s), mas é bem rápido.

Reivindicação: O desempenho aprimorado da rede elástica sobre o LASSO ou a regressão da crista não é garantido.

Isso é verdade, mas na etapa em que se está pensando em qual método usar, não se sabe qual rede elástica, cume ou LASSO é o melhor. Se alguém considerar que a melhor solução deve ser LASSO ou regressão de crista, estamos no domínio da reivindicação (1). Se ainda não sabemos o que é melhor, podemos testar as soluções LASSO, cumeeira e rede elástica e escolher um modelo final nesse ponto (ou, se você é um acadêmico, basta escrever seu artigo sobre os três ) Essa situação de incerteza anterior nos colocará no domínio da reivindicação (2), onde o modelo verdadeiro é LASSO / cume, mas ainda não o conhecíamos com antecedência, e acidentalmente selecionamos o modelo errado devido a hiperparâmetros mal identificados ou rede elástica é realmente a melhor solução.

Reivindicação: A seleção de hiperparâmetros sem validação cruzada é altamente tendenciosa e propensa a erros .

A validação adequada do modelo é parte integrante de qualquer empresa de aprendizado de máquina. A validação de modelo também costuma ser uma etapa cara, portanto, procuraria-se minimizar ineficiências aqui - se uma dessas ineficiências estiver tentando desnecessariamente valores $\alpha$ que são conhecidos por serem fúteis, uma sugestão pode ser fazê-lo. Sim, faça isso de qualquer maneira, se você se sentir confortável com a forte declaração que está fazendo sobre como seus dados são organizados - mas estamos de volta ao território da reivindicação (1) e reivindicação (2).

2. Qual é a intuição e a matemática por trás da rede elástica?

Eu sugiro fortemente a leitura da literatura sobre esses métodos, começando com o artigo original na rede elástica. O artigo desenvolve a intuição e a matemática e é altamente legível. A reprodução aqui seria apenas em detrimento da explicação dos autores. Mas o resumo de alto nível é que a rede elástica é uma soma convexa do cume e penalidades lasso, então a função objetivo por Gauss olhares modelo de erro como

Erro quadrado médio residual + α \cdot Penalidade de Ridge + (1 1 - α) \cdot Pena de LASSO

$\text{Residual Mean Square Error}+\alpha \cdot \text{Ridge Penalty}+(1-\alpha)\cdot \text{LASSO Penalty}$

para $\alpha\in[0,1].$

Hui Zou e Trevor Hastie. " Regularização e seleção de variáveis via rede elástica ." JR Statistic. Soc., Vol 67 (2005), parte 2., pp. 301-320.

Richard Hardy ressalta que isso é desenvolvido com mais detalhes em Hastie et al. "Os elementos da aprendizagem estatística", capítulos 3 e 18.

3. E se você adicionar normas $L^q$ adicionais ?

Esta é uma pergunta que me é apresentada nos comentários:

$L^3$ $\gamma$ $\gamma\not =0$ $L^3$

Compreendo que o espírito da pergunta é "Se é como você afirma e duas sanções são boas, por que não adicionar outra?" Mas acho que a resposta está no motivo de regularizarmos em primeiro lugar.

$L^1$ $n$ $n$ $L_2$ $p$ $L_2$ $p>n$

Deixando de lado um desses problemas, o modelo regularizado ainda pode superar o modelo de ML, porque as propriedades de retração dos estimadores são "pessimistas" e puxam os coeficientes para 0.

$L^3$

$L^1$ $L^2$

$L_1$ $L_2$

$L^2$ $L^1$ $L^1$ $L^2$

$L^q$ $L^1$ $L^2$

— Sycorax diz restabelecer Monica
fonte

Dizer que "a rede elástica é sempre preferível à regressão do laço e da crista" pode ser um pouco forte demais. Em amostras pequenas ou médias, a rede elástica pode não selecionar a solução LASSO pura ou a crista pura, mesmo que a primeira ou a última seja realmente a relevante. Dado um forte conhecimento prévio, poderia fazer sentido escolher LASSO ou cume no lugar da rede elástica. No entanto, na falta de conhecimento prévio, a rede elástica deve ser a solução preferida.

— Richard Hardy

α

$\alpha$

γ

$\gamma$

γ \neq 0

$\gamma \ne 0$

L_{1}

$L_1$

L_{2}

$L_2$

L_{3}

$L_3$

"Podemos testar soluções LASSO, cumeeiras e redes elásticas e escolher um modelo final" - podemos, mas é claro que esse é um novo procedimento, otimizando um critério sujeito a erros aleatórios, que podem ou não ter um desempenho melhor do que LASSo, ou regressão de crista, ou rede elástica sozinha.

— Scortchi - Restabelece Monica

Geralmente concordo com a resposta do @Sycorax, mas gostaria de adicionar alguma qualificação.

Dizer que "a rede elástica é sempre preferível à regressão do laço e da crista" pode ser um pouco forte demais. Em amostras pequenas ou médias, a rede elástica pode não selecionar a solução LASSO pura ou a crista pura, mesmo que a primeira ou a última seja realmente a relevante. Dado um forte conhecimento prévio, poderia fazer sentido escolher LASSO ou cume no lugar da rede elástica. No entanto, na ausência de conhecimento prévio, a rede elástica deve ser a solução preferida.

Além disso, a rede elástica é computacionalmente mais cara que o LASSO ou o cume, pois o peso relativo do LASSO versus o cume deve ser selecionado usando a validação cruzada. Se uma grade razoável de valores alfa for [0,1] com um tamanho de passo de 0,1, isso significaria que a rede elástica é aproximadamente 11 vezes mais cara do que o LASSO ou a crista. (Como o LASSO e o cume não têm a mesma complexidade computacional, o resultado é apenas um palpite).

— Richard Hardy
fonte

Ou, de fato, o LASSO ou a regressão de crista podem não fornecer desempenho preditivo aprimorado em relação à regressão não compensada.

— Scortchi - Reinstate Monica

Que tipo de conhecimento prévio levaria alguém a preferir Lasso e que tipo de conhecimento prévio levaria alguém a preferir cordilheira?

— Ameba diz Reinstate Monica

@amoeba, se é plausível que todos os regressores sejam relevantes, mas eles sejam altamente correlacionados, nenhuma seleção de variáveis é necessária e, portanto, o cume pode ser preferido. Se, por outro lado, é provável que alguns dos regressores sejam completamente irrelevantes (mas simplesmente não sabemos quais), então a seleção de variáveis é necessária e o LASSO pode ser preferido. Esse conhecimento seria retirado do domínio do assunto. Eu acho que pode haver alguns exemplos em Hastie et al. "Os elementos da aprendizagem estatística" ou na literatura relacionada, simplesmente não me lembro de onde li isso.

— Richard Hardy

@kjetilbhalvorsen, obrigado, isso foi útil.

— Richard Hardy

@amoeba, cume é melhor para dados correlacionados, onde L2 incentiva muitos pesos pequenos (média) sobre as entradas .. o exemplo clássico é a repetição de medições com ruído independente (por exemplo, processamento de sinal ou, por exemplo, vários exames do mesmo assunto), enquanto l1 é melhor onde 1 var domina a outra, caso clássico sendo dados hierárquicos: onde os coeficientes devem ser estimados no nível mais alto da hierarquia.

— seanv507

O que é regularização líquida elástica e como resolve as desvantagens de Ridge (

1. Qual método é o preferido?

2. Qual é a intuição e a matemática por trás da rede elástica?

3. E se você adicionar normas euqeuqL^q adicionais ?

3. E se você adicionar normas $L^q$ adicionais ?