Soft-limiar vs. Lasso penalização

Estou tentando resumir o que entendi até agora na análise multivariada penalizada com conjuntos de dados de alta dimensão, e ainda luto para obter uma definição adequada da penalização de limiar suave versus penalização por Lasso (ou ). $L_1$

Mais precisamente, usei a regressão PLS esparsa para analisar a estrutura de dados de dois blocos, incluindo dados genômicos ( polimorfismos de nucleotídeo único , onde consideramos a frequência do alelo menor no intervalo {0,1,2}, considerado uma variável numérica) e fenótipos contínuos (escores que quantificam traços de personalidade ou assimetria cerebral, também tratados como variáveis contínuas). A idéia era isolar os preditores mais influentes (aqui, as variações genéticas na sequência de DNA) para explicar variações fenotípicas interindividuais.

Inicialmente, usei o pacote mixOmics R (anteriormente integrOmics), que apresenta regressão PLS penalizada e CCA regularizado . Olhando para o código R, descobrimos que a "dispersão" nos preditores é simplesmente induzida por selecionar os top variáveis com maiores cargas (em valor absoluto) sobre o th componente, (o algoritmo é o carregamento de variáveis iterativas e de computação em componentes , deflacionando o bloco de preditores a cada iteração, consulte Sparse PLS: Seleção de Variáveis ao Integrar Dados Omics para uma visão geral). Pelo contrário, o pacote spls em co-autoria de S. Keleş (consulte $k$ $i$ $i=1,\dots, k$ $k$ A regressão de mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis , para uma descrição mais formal da abordagem adotada por esses autores) implementa penalização para penalização variável. $L_1$

Não é óbvio para mim se existe uma "bijeção" estrita, por assim dizer, entre a seleção iterativa de recursos com base no limiar suave e regularização . Então, minha pergunta é: existe alguma conexão matemática entre os dois? $L_1$

Referências

Chun, H. e Kele ̧s, S. (2010), mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis . Jornal da Sociedade Estatística Real: Série B , 72 , 3–25.
Le Cao, K.-A., Rossouw, D., Robert-Granie, C. e Besse, P. (2008), A Sparse PLS for Variable Selection ao integrar Data Omics . Aplicações Estatísticas em Genética e Biologia Molecular , 7 , Artigo 35.

— chl
fonte

Respostas:

O que direi vale para a regressão, mas também deve ser verdade para o PLS. Portanto, não é uma bijeção porque, dependendo do quanto você aplica a restrição no , você terá uma variedade de 'respostas', enquanto a segunda solução admite apenas respostas possíveis (onde é o número de variáveis) <-> existem mais soluções na formulação que na formulação 'truncamento'. $l1$ $p$ $p$ $l1$

— user603
fonte

@kwak Ok, o algoritmo LARS parece muito mais sofisticado do que simples limiares na importância das variáveis, mas o ponto é que não vejo uma relação clara entre o parâmetro de penalidade e o número de variáveis que devem ser mantidas no modelo; parece-me que não podemos necessariamente encontrar um parâmetro de penalidade que produziria exatamente um número fixo de variáveis.

— chl

@chl:> S-PLS você quer dizer? (você escreveu LARS, que é uma coisa diferente de qualquer algoritmo que você discute). De fato, existe uma relação monótona entre o parâmetro de penalidade e o # do componente, mas não é um conjunto de relações linear e esse relacionamento varia de acordo com cada caso (depende do conjunto de dados / problema).

— user603

@kwak A penalidade de L1 pode ser alcançada usando LARS, a menos que eu seja enganoso. Seu segundo ponto é o que tenho em mente; você tem alguma referência sobre esse ponto?

— chl

@chl:> * A penalidade de L1 pode ser alcançada usando o LARS, a menos que eu seja enganador *, eu não sabia disso (e duvido). Você pode fornecer uma referência? Obrigado. para sua segunda pergunta: veja os "graus de liberdade" do laço Hui Zou, Trevor Hastie e Robert Tibshirani Fonte: Ann. Statist. Volume 35, Número 5 (2007), 2173-2192. (existem muitas versões sem porta).

— user603

@kwak Confira a página da Tibshirani, www-stat.stanford.edu/~tibs/lasso.html e o larspacote R; outros métodos incluem descida de coordenadas (consulte JSS 2010 33 (1), bit.ly/bDNUFo ) e o scikit.learnpacote Python apresenta as duas abordagens, bit.ly/bfhnZz .

— chl

$L_1$ penalização faz parte de um problema de otimização. O limiar suave faz parte de um algoritmo. Às vezes, a penalização leva à limiar suave. $L_1$

Para a regressão, mínimos quadrados penalizados (Lasso) resulta em limiar suave quando as colunas da matriz são ortogonais (supondo que as linhas correspondam a amostras diferentes). É realmente simples derivar quando você considera o caso especial de estimativa média, em que a matriz consiste em um único em cada linha e zera em qualquer outro lugar. $L_1$ $X$ $X$ $1$

Para a matriz geral , o cálculo da solução Lasso por descida cíclica de coordenadas resulta em limiar suave essencialmente iterativo. Veja http://projecteuclid.org/euclid.aoas/1196438020 . $X$

— vqv
fonte

(+1) Obrigado por isso, especialmente o artigo de Friedman.

— chl