Na verdade, estou escrevendo uma implementação do Random Forests, mas acredito que a pergunta é específica para as árvores de decisão (independentes dos RFs).
Portanto, o contexto é que estou criando um nó em uma árvore de decisão e as variáveis de previsão e de destino são contínuas. O nó possui um limite de divisão para particionar dados em dois conjuntos, e eu crio uma nova previsão para cada subconjunto com base no valor-alvo médio em cada conjunto. Essa é a abordagem correta?
A razão pela qual pergunto é que, ao prever variáveis binárias , acredito que a abordagem típica (correta?) É dividir os dados em subconjuntos 0 e 1 sem medir a média das linhas de dados em cada subconjunto. As divisões subsequentes serão divididas em subconjuntos de granulação mais fina, e a média de cada divisão será dividida em subseqüentes (mais abaixo na árvore de decisão) operando no que agora são variáveis contínuas, em vez de variáveis binárias (porque estamos operando com os valores de erro residual em vez dos originais metas).
Pergunta secundária: A distinção entre as duas abordagens (binária x contínua) é significativa - ou elas realmente fornecerão resultados idênticos para uma árvore de decisão completa?