Árvore de decisão com variável de entrada contínua

Sabe-se que, ao construir uma árvore de decisão, dividimos a variável de entrada exaustivamente e encontramos a melhor divisão por abordagem de teste estatístico ou por função de impureza.

Minha pergunta é: quando usamos uma variável contínua como variável de entrada (apenas alguns valores duplicados), o número de divisões possíveis pode ser muito grande, para descobrir que a 'melhor' divisão será demorada. Como o cientista de dados lidaria com isso?

Eu li alguns materiais que as pessoas faziam um agrupamento de níveis da entrada para limitar as possíveis divisões. ( exemplo ). No entanto, eles não explicam como isso é feito. Em que baseamos para agrupar uma variável univariada? Existem recursos para mais detalhes ou alguém pode explicar em detalhes?

Obrigado!

cart

— pe perry
fonte

Não existe um algoritmo para treinar uma floresta aleatória, mas muitas. Por exemplo ID3, C4.5, CART, CHAID ou MARS. A resposta à sua pergunta depende fortemente o algoritmo usado ...

— MaxBenChrist

@MaxBenChrist Você se importaria de escolher um a dois deles, por exemplo, CART para explicar como a variável de entrada está agrupada? Obrigado!

— pe-perry

Os algoritmos dividiam-se em compartimentos / intervalos e encontravam o ponto que dava os resultados mais ambiciosos.

— HelloWorld

$X$

[1,3,4,6,2,5,18,10, -3, -5]

$X$

[-5, -3,1,2,3,4,5,6,10,18]

e "agrupe" seus dados em compartimentos

[-5, -3], [1,2], [3,4], [5,6], [10,18]

Portanto, você teria apenas que verificar -1,2,5,4,5 e 8 como possível ponto de divisão (você interpola linearmente entre os compartimentos)

O artigo a seguir está comparando três regras sobre como escolher os pontos de divisão a serem testados. Eu acho que é o que você está procurando.

@article {chickeringefficient, title = {Determinação eficiente de pontos de divisão dinâmicos em uma árvore de decisão}, autor = {Chickering, David Maxwell e Meek, Christopher e Rounthwaite, Robert}}

— MaxBenChrist
fonte