Sabe-se que, ao construir uma árvore de decisão, dividimos a variável de entrada exaustivamente e encontramos a melhor divisão por abordagem de teste estatístico ou por função de impureza.
Minha pergunta é: quando usamos uma variável contínua como variável de entrada (apenas alguns valores duplicados), o número de divisões possíveis pode ser muito grande, para descobrir que a 'melhor' divisão será demorada. Como o cientista de dados lidaria com isso?
Eu li alguns materiais que as pessoas faziam um agrupamento de níveis da entrada para limitar as possíveis divisões. ( exemplo ). No entanto, eles não explicam como isso é feito. Em que baseamos para agrupar uma variável univariada? Existem recursos para mais detalhes ou alguém pode explicar em detalhes?
Obrigado!