Dadas as duas formulações equivalentes do problema para a regressão do LASSO, e \ min (RSS) tais que \ sum | \ beta_i | \ leq t , como podemos expressar a -para-um entre \ lambda e t ?
Dadas as duas formulações equivalentes do problema para a regressão do LASSO, e \ min (RSS) tais que \ sum | \ beta_i | \ leq t , como podemos expressar a -para-um entre \ lambda e t ?
Respostas:
A resposta para sua pergunta segue da consideração da dualidade lagrangiana. Isso foi trabalhado no post que considero duplicado no meu comentário no post do OP. A seguir, descubro o que considero uma derivação mais perspicaz.
Na verdade, quando estamos resolvendo um laço, tentamos minimizar conjuntamente e . Ou seja, buscamos . Isso não parece bem definido no momento, pois sabemos que há alguma tensão entre esses dois objetivos. É isso que as pessoas de otimização chamam de otimização multicritério . Vamos visualizar esse problema plotando para muitos 's. (Observe que aqui , , foi inicializado aleatoriamente e o verdadeiro coeficiente tem aproximadamente um quarto das entradas iguais a zero.)
Aqui, e . Ou seja, o eixo vertical mede a falta de ajuste e o eixo horizontal mede o tamanho do coeficiente. Observe que cortei a parte superior da imagem por uma questão de clareza.
Os pontos no canto inferior esquerdo da plotagem são os que nos interessam. Esses correspondem aos valores de que possuem a norma pequena e possuem um pequeno erro. De fato, para os pontos no canto inferior esquerdo, não há com o mesmo tamanho e tamanho menor ou o mesmo tamanho com melhor tamanho. Para escolher entre esses pontos, chamados pontos ótimos de pareto , precisamos determinar a importância relativa do ajuste e tamanho, nossos dois objetivos. Isso deve nos lembrar dos parâmetros de ajuste ou no laço irrestrito ou restrito, respectivamente. Abaixo, plotamos em verde algumas soluções de laço, computadas a partir do glmnet, impostas no gráfico acima.
Observe que o laço encontrou exatamente os pontos ótimos de pareto. Isso é muito surpreendente! Como um objetivo multidimensional foi otimizado por um objetivo unidimensional? O processo é chamado de escalarização: pegamos pesos e formamos o problemaQuando ambos os objetivos são convexos, como eles estão aqui, esse problema escalarizado encontra todos os pontos ideais de pareto.
Assumindo , que assume que ambos os objetivos estão sendo considerados e escrevendo , temos que isso é apenas o laço , em sua forma usual. Pela dualidade lagrangiana, sabemos que existe de para que, em vez disso, possamos resolver o problema equivalente que .
Agora que entendemos melhor o que estamos tentando resolver e ter uma boa visualização, vamos agora concentrar-se em encontrar uma relação entre os parâmetros de ajuste e .
Para um determinado valor de , a estimativa do laço restrito Será um desses pontos verdes no gráfico acima. A maneira como Pode ser encontrada é fixando-se em (para o menor coeficiente de quadrados) e descendo até obter a menor medida possível de falta de ajuste. Ou seja,Como vimos acima, corresponde a uma escalarização do nosso objetivo de vetor e, portanto, é igual à inclinação neste momento: