Eu tenho uma pergunta sobre seleção de modelos e desempenho de modelos em regressão logística. Eu tenho três modelos que são baseados em três hipóteses diferentes. Os dois primeiros modelos (vamos chamá-los de zex) têm apenas uma variável explicativa em cada modelo, e o terceiro (vamos chamá-lo de w) é mais complicado. Estou usando o AIC para seleção de variáveis para o modelo w e depois o AIC para comparar qual dos três modelos que melhor explica a variável dependente. Descobri que o modelo w tem o AIC mais baixo e agora quero fazer algumas estatísticas de desempenho nesse modelo para ter uma idéia do poder preditivo do modelo. Como tudo o que sei é que esse modelo é melhor que os outros dois, mas não o quão bom é.
Desde que eu usei todos os dados para aprender o modelo (para poder comparar os três modelos), como devo proceder com o desempenho do modelo? Pelo que reuni, não posso apenas fazer uma validação cruzada k-fold no modelo final que obtive da seleção de modelos usando o AIC, mas preciso começar do início com todas as variáveis explicativas incluídas, isso está correto? Eu acho que é o modelo final que escolhi com a AIC e quero saber o desempenho da mesma, mas percebo que treinei todos os dados para que o modelo seja tendencioso. Portanto, se eu começar do começo com todas as variáveis explicativas em todas as dobras, receberei modelos finais diferentes para algumas dobras, posso escolher o modelo da dobra que deu o melhor poder preditivo e aplicá-lo ao conjunto completo de dados para comparar AIC com os outros dois modelos (zex)? Ou como isso funciona?
A segunda parte da minha pergunta é uma pergunta básica sobre excesso de parametrização. Eu tenho 156 pontos de dados, 52 é 1 o resto é 0. Eu tenho 14 variáveis explicativas para escolher para o modelo w, percebo que não posso incluir tudo devido à parametrização excessiva; li que você deve usar apenas 10% do grupo da variável dependente com menos observações, o que só seria 5 para mim. Estou tentando responder a uma pergunta em ecologia, está certo selecionar as variáveis iniciais que, na minha opinião, explicam melhor o dependente simplesmente baseado em ecologia? Ou como escolho as variáveis explicativas iniciais? Não parece certo excluir completamente algumas variáveis.
Então, eu realmente tenho três perguntas:
- Seria bom testar o desempenho em um modelo treinado no conjunto de dados completo com validação cruzada?
- Caso contrário, como escolho o modelo final ao fazer a validação cruzada?
- Como escolho as variáveis iniciais para que eu queira parametrizar demais?
Desculpe por minhas perguntas confusas e minha ignorância. Sei que perguntas semelhantes foram feitas, mas ainda me sinto um pouco confusas. Aprecie quaisquer pensamentos e sugestões.