Como as divisões da árvore de decisão devem ser implementadas ao prever variáveis contínuas?

Na verdade, estou escrevendo uma implementação do Random Forests, mas acredito que a pergunta é específica para as árvores de decisão (independentes dos RFs).

Portanto, o contexto é que estou criando um nó em uma árvore de decisão e as variáveis de previsão e de destino são contínuas. O nó possui um limite de divisão para particionar dados em dois conjuntos, e eu crio uma nova previsão para cada subconjunto com base no valor-alvo médio em cada conjunto. Essa é a abordagem correta?

A razão pela qual pergunto é que, ao prever variáveis binárias , acredito que a abordagem típica (correta?) É dividir os dados em subconjuntos 0 e 1 sem medir a média das linhas de dados em cada subconjunto. As divisões subsequentes serão divididas em subconjuntos de granulação mais fina, e a média de cada divisão será dividida em subseqüentes (mais abaixo na árvore de decisão) operando no que agora são variáveis contínuas, em vez de variáveis binárias (porque estamos operando com os valores de erro residual em vez dos originais metas).

Pergunta secundária: A distinção entre as duas abordagens (binária x contínua) é significativa - ou elas realmente fornecerão resultados idênticos para uma árvore de decisão completa?

algorithms cart random-forest

— redcalx
fonte

A divisão em uma variável contínua garantirá que o "modelo" resultante não se ajuste adequadamente aos dados. Se você tiver um X contínuo e um Y contínuo, considere usar o loess não paramétrico mais suave.

— precisa

O problema no qual estou trabalhando agora tem muitas variáveis preditoras (uma mistura de contínua e binária) e uma única variável de destino. Portanto, acredito que a RF é uma abordagem razoável a ser adotada.

— redcalx

Muito provavelmente sim. Mas uma floresta aleatória é uma mistura de árvores (não é uma árvore de decisão), portanto, aproxima relações contínuas fazendo várias divisões e, com efeito, usando o encolhimento. Portanto, não acho que sua pergunta original se aplique, se eu entendi.

— Frank Harrell

Estou tentado a dizer que a sua descrição do caso contínuo está correta (ou seja, a maneira padrão de fazer as coisas), mas, em seguida, a sua descrição do caso variável binária não corresponde em absoluto com o meu entendimento das florestas como aleatórios (ou decisão árvores) funcionam, então estou preocupado que um de nós esteja confuso.

— joran

@joran. Sim, ao forçar as previsões como 0 ou 1, você perde a capacidade de fazer ajustes sutis nas previsões (entre 0 e 1) que podem diminuir o erro (por exemplo, erro médio de previsão ao quadrado). Como tal, suspeito que essa abordagem seja inferior. Eu tentei e a maioria das tentativas de construir uma árvore de decisão falha ao encontrar até uma única divisão que melhora o erro.

— redcalx

Um possível problema com as árvores é que elas tendem a se encaixar mal nas caudas. Pense em um nó terminal que captura a faixa baixa do conjunto de treinamento. Ele irá prever o uso da média desses pontos de ajuste de treinamento, que sempre subestimarão o resultado (já que é a média).

Você pode tentar modelar árvores [1]. Isso ajustará modelos lineares nos nós terminais e (eu acho) fará um trabalho melhor do que as árvores de regressão. Melhor ainda, use uma versão mais evoluída chamada Cubist, que combina diferentes abordagens ([1] e [2] abaixo).

Esses modelos também lidam com preditores contínuos e discretos de maneira diferente. Eles podem fazer divisões de várias maneiras para variáveis categóricas. O critério de divisão é muito semelhante às árvores CART.

Árvores modelo podem ser encontradas em R no pacote RWeka (chamado 'M5P') e Cubist está no pacote Cubist. Obviamente, você também pode usar o Weka e o Cubist tem uma versão C disponível no site RuleQuest.

[1] Quinlan, J. (1992). Aprendendo com aulas contínuas. Anais da 5ª Conferência Conjunta Australiana sobre Inteligência Artificial, 343-348.

[2] Quinlan, J. (1993). Combinando aprendizado baseado em instância e modelo. Anais da Décima Conferência Internacional sobre Aprendizado de Máquina, 236–243.

— topepo
fonte

Você não poderia simplesmente ter árvores mais profundas para minimizar o mau encaixe nas caudas?

— Jase

Como as divisões da árvore de decisão devem ser implementadas ao prever variáveis ​​contínuas?

Como as divisões da árvore de decisão devem ser implementadas ao prever variáveis contínuas?