Introdução:
Eu tenho um conjunto de dados com um clássico "grande p, pequeno n problema". O número de amostras disponíveis n = 150, enquanto o número de possíveis preditores p = 400. O resultado é uma variável contínua.
Eu quero encontrar os descritores mais "importantes", ou seja, aqueles que são os melhores candidatos para explicar o resultado e ajudar a construir uma teoria.
Depois de pesquisar esse tópico, descobri que LASSO e Elastic Net são comumente usados no caso de p grande, pequeno n. Alguns de meus preditores são altamente correlacionados e eu quero preservar seus agrupamentos na avaliação de importância; portanto, optei pelo Elastic Net . Suponho que posso usar valores absolutos dos coeficientes de regressão como medida de importância (corrija-me se estiver errado; meu conjunto de dados é padronizado).
Problema:
Como meu número de amostras é pequeno, como posso obter um modelo estável?
Minha abordagem atual é encontrar os melhores parâmetros de ajuste (lambda e alfa) em uma pesquisa em grade em 90% do conjunto de dados com 10 vezes a validação cruzada, média da pontuação do MSE. Em seguida, treino o modelo com os melhores parâmetros de ajuste em todos os 90% do conjunto de dados. Sou capaz de avaliar meu modelo usando R ao quadrado no holdout 10% do conjunto de dados (que representam apenas 15 amostras).
Executando repetidamente esse procedimento, encontrei uma grande variação nas avaliações ao quadrado de R. Além disso, o número de preditores não zerados varia, bem como seus coeficientes.
Como posso obter uma avaliação mais estável da importância dos preditores e uma avaliação mais estável do desempenho do modelo final?
Posso executar repetidamente meu procedimento para criar vários modelos e, em seguida, coeficientes de regressão médios? Ou devo usar o número de ocorrências de um preditor nos modelos como seu escore de importância?
Atualmente, recebo cerca de 40-50 preditores não zerados. Devo penalizar mais o número de preditores por uma melhor estabilidade?