Eu tenho um conjunto de dados com 330 amostras e 27 recursos para cada amostra, com um problema de classe binária para Regressão Logística.
De acordo com a "regra se dez", preciso de pelo menos 10 eventos para que cada recurso seja incluído. No entanto, tenho um conjunto de dados desequilibrado, com 20% de classe positiva e 80% de classe negativa.
Isso me dá apenas 70 eventos, permitindo que aproximadamente apenas 7/8 sejam incluídos no modelo Logístico.
Eu gostaria de avaliar todos os recursos como preditores, não quero escolher nenhum recurso manualmente.
Então, o que você sugeriria? Devo fazer todas as combinações possíveis de 7 recursos? Devo avaliar cada recurso sozinho com um modelo de associação e escolher apenas os melhores para um modelo final?
Também estou curioso sobre o manuseio de recursos categóricos e contínuos, posso misturá-los? Se eu tiver um [0-1] categórico e um [0-100] contínuo, devo normalizar?
Atualmente, estou trabalhando com Python.
Muito obrigado por sua ajuda!