Estou tentando prever o sucesso ou fracasso dos alunos com base em alguns recursos com um modelo de regressão logística. Para melhorar o desempenho do modelo, já pensei em dividir os alunos em grupos diferentes com base em diferenças óbvias e em criar modelos separados para cada grupo. Mas acho que pode ser difícil identificar esses grupos por exame, então pensei em dividir os alunos agrupando seus recursos. Esta é uma prática comum na construção de tais modelos? Você sugeriria que eu a dividisse em grupos óbvios (por exemplo, alunos do primeiro ano versus alunos que retornam) e depois realizasse agrupamentos nesses grupos ou agrupasse desde o início?
Para tentar esclarecer:O que quero dizer é que estou pensando em usar um algoritmo de agrupamento para dividir meu conjunto de treinamento para a regressão logística em grupos. Eu faria então regressões logísticas separadas para cada um desses grupos. Então, ao usar a regressão logística para prever o resultado de um aluno, eu escolheria qual modelo usar com base em qual grupo eles se encaixam melhor.
Talvez eu pudesse fazer a mesma coisa incluindo um identificador de grupo, por exemplo, 1 se o aluno está retornando e 0 se não.
Agora, você me fez pensar se seria vantajoso agrupar o conjunto de dados de treinamento e usar seu rótulo de cluster como um recurso na regressão logística, em vez de criar modelos de regressão logística separados para cada população.
Se for útil incluir um identificador de grupo para aqueles que retornam e novos alunos, também pode ser útil expandir a lista de grupos? O agrupamento parece ser uma maneira natural de fazer isso.
Espero que esteja claro ...