Meu entendimento da regressão do LASSO é que os coeficientes de regressão são selecionados para resolver o problema de minimização:
Na prática, isso é feito usando um multiplicador de Lagrange, tornando o problema para resolver
Qual é a relação entre e ? A Wikipedia simplesmente afirma que é "dependente de dados".
Por que eu me importo? Em primeiro lugar por curiosidade intelectual. Mas também estou preocupado com as conseqüências para selecionar por validação cruzada.
Especificamente, se estou fazendo validação cruzada n vezes, encaixo n modelos diferentes em n partições diferentes dos meus dados de treinamento. Em seguida, comparo a precisão de cada um dos modelos nos dados não utilizados para um dado . Mas o mesmo implica uma restrição diferente ( ) para diferentes subconjuntos dos dados (ou seja, é "dependente de dados").
Não é o problema de validação cruzada que realmente quero resolver para encontrar o que oferece o melhor trade-off de precisão de viés?
Posso ter uma idéia aproximada do tamanho desse efeito na prática calculando para cada divisão de validação cruzada e e observando a distribuição resultante. Em alguns casos, a restrição implícita ( ) pode variar substancialmente entre meus subconjuntos de validação cruzada. Onde, substancialmente, quero dizer o coeficiente de variação em .