Estou tentando resumir o que entendi até agora na análise multivariada penalizada com conjuntos de dados de alta dimensão, e ainda luto para obter uma definição adequada da penalização de limiar suave versus penalização por Lasso (ou ).
Mais precisamente, usei a regressão PLS esparsa para analisar a estrutura de dados de dois blocos, incluindo dados genômicos ( polimorfismos de nucleotídeo único , onde consideramos a frequência do alelo menor no intervalo {0,1,2}, considerado uma variável numérica) e fenótipos contínuos (escores que quantificam traços de personalidade ou assimetria cerebral, também tratados como variáveis contínuas). A idéia era isolar os preditores mais influentes (aqui, as variações genéticas na sequência de DNA) para explicar variações fenotípicas interindividuais.
Inicialmente, usei o pacote mixOmics R (anteriormente integrOmics
), que apresenta regressão PLS penalizada e CCA regularizado . Olhando para o código R, descobrimos que a "dispersão" nos preditores é simplesmente induzida por selecionar os top variáveis com maiores cargas (em valor absoluto) sobre o th componente, (o algoritmo é o carregamento de variáveis iterativas e de computação em componentes , deflacionando o bloco de preditores a cada iteração, consulte Sparse PLS: Seleção de Variáveis ao Integrar Dados Omics para uma visão geral). Pelo contrário, o pacote spls em co-autoria de S. Keleş (consultei i = 1 , … , k k L 1A regressão de mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis , para uma descrição mais formal da abordagem adotada por esses autores) implementa penalização para penalização variável.
Não é óbvio para mim se existe uma "bijeção" estrita, por assim dizer, entre a seleção iterativa de recursos com base no limiar suave e regularização . Então, minha pergunta é: existe alguma conexão matemática entre os dois?
Referências
- Chun, H. e Kele ̧s, S. (2010), mínimos quadrados parciais esparsos para redução simultânea de dimensões e seleção de variáveis . Jornal da Sociedade Estatística Real: Série B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. e Besse, P. (2008), A Sparse PLS for Variable Selection ao integrar Data Omics . Aplicações Estatísticas em Genética e Biologia Molecular , 7 , Artigo 35.