Estive navegando em vários tópicos aqui, mas não acho que minha pergunta exata seja respondida.
Eu tenho um conjunto de dados de ~ 50.000 alunos e seu tempo para desistir. Vou realizar uma regressão proporcional a riscos com um grande número de covariáveis em potencial. Também farei regressão logística na evasão / permanência. O principal objetivo será a previsão de novas coortes de estudantes, mas não temos motivos para acreditar que elas variarão muito em relação à coorte do ano passado.
Normalmente, eu não tenho esse luxo de dados e faço o ajuste do modelo com algum tipo de penalização, mas desta vez pensei em dividir os conjuntos de dados de treinamento e teste e depois fazer a seleção de variáveis no conjunto de treinamento; depois, usando o conjunto de dados de teste para estimar parâmetros e capacidade preditiva.
Essa é uma boa estratégia? Se não, o que é melhor?
Citações bem-vindas, mas não necessárias.