Estou tentando fazer a seleção do modelo em alguns candidatos a preditores usando o LASSO com um resultado contínuo. O objetivo é selecionar o modelo ideal com o melhor desempenho de previsão, o que geralmente pode ser feito através da validação cruzada K-fold após a obtenção do caminho da solução dos parâmetros de ajuste do LASSO. A questão aqui é que os dados são de um complexo projeto de pesquisa em vários estágios (NHANES), com amostragem e estratificação por cluster. A parte da estimativa não é difícil, pois glmnet
em R pode levar pesos amostrais. Mas a parte da validação cruzada é menos clara para mim, pois as observações agora não são mais claras e como o procedimento pode explicar os pesos amostrais que representam uma população finita?
Então, minhas perguntas são:
1) Como realizar a validação cruzada K-fold com dados complexos de pesquisa para selecionar o parâmetro de ajuste ideal? Mais especificamente, como particionar adequadamente os dados de amostra em conjuntos de treinamento e validação? E como definir a estimativa do erro de previsão?
2) Existe uma maneira alternativa de selecionar o parâmetro de ajuste ideal?