Para a tarefa de modelagem de rotatividade, eu estava considerando:
- Computar k clusters para os dados
- Crie k modelos para cada cluster individualmente.
A justificativa para isso é que não há nada a provar, que a população de assinantes é homogênea; portanto, é razoável supor que o processo de geração de dados possa ser diferente para diferentes "grupos"
Minha pergunta é: é um método apropriado? Ele viola alguma coisa ou é considerado ruim por algum motivo? Se sim, por quê?
Caso contrário, você compartilharia algumas práticas recomendadas sobre esse assunto? E a segunda coisa - geralmente é melhor ou pior fazer o pré-agrupamento do que a árvore modelo (conforme definido em Witten, Frank - árvore de classificação / regressão com modelos nas folhas. Intuitivamente, parece que o estágio da árvore de decisão é apenas outra forma de agrupamento, mas idk se tiver alguma vantagem sobre o cluster "normal".).