Minha situação:
- tamanho pequeno da amostra: 116
- variável de resultado binário
- lista longa de variáveis explicativas: 44
- variáveis explicativas não vieram do alto da minha cabeça; sua escolha foi baseada na literatura.
- a maioria dos casos na amostra e a maioria das variáveis têm valores ausentes.
Abordagem da seleção de recursos escolhida: LASSO
O pacote glmnet do R não me permite executar a rotina glmnet, aparentemente devido à existência de valores ausentes no meu conjunto de dados. Parece haver vários métodos para lidar com dados ausentes, então eu gostaria de saber:
- O LASSO impõe alguma restrição em termos do método de imputação que eu posso usar?
- Qual seria a melhor aposta para o método de imputação? Idealmente, preciso de um método que eu possa executar no SPSS (preferencialmente) ou R.
ATUALIZAÇÃO 1: Ficou claro a partir de algumas das respostas abaixo que eu lidei com questões mais básicas antes de considerar os métodos de imputação. Eu gostaria de adicionar aqui novas perguntas sobre isso. Na resposta que sugere a codificação como valor constante e a criação de uma nova variável para lidar com valores 'não aplicáveis' e o uso do laço de grupo:
- Você diria que, se eu usar o grupo LASSO, seria capaz de usar a abordagem sugerida para preditores contínuos também para preditores categóricos? Nesse caso, suponho que seria equivalente a criar uma nova categoria - desconfio que isso possa introduzir viés.
- Alguém sabe se o pacote glmnet do R suporta o grupo LASSO? Caso contrário, alguém sugeriria outro que faça isso em combinação com a regressão logística? Várias opções que mencionam o grupo LASSO podem ser encontradas no repositório CRAN, alguma sugestão das mais apropriadas para o meu caso? Talvez SGL?
Este é um acompanhamento de uma pergunta anterior minha ( como selecionar um subconjunto de variáveis da minha lista longa original para realizar análise de regressão logística? ).
OBS: Eu não sou estatístico.