Minha pergunta é sobre classificação binária, por exemplo, separar bons clientes de clientes ruins, mas não regressão ou classificação não-binária. Nesse contexto, uma floresta aleatória é um conjunto de árvores de classificação. Para cada observação, toda árvore vota um "sim" ou "não", e o voto médio de todas as árvores é a probabilidade final da floresta.
Minha pergunta é sobre a modificação do comportamento das árvores subjacentes: Como podemos modificar a função randomForest (do pacote randomForest de R) para que cada árvore vote um decimal em vez de um sim / não binário. Para entender melhor o que quero dizer com decimal, vamos pensar sobre como as árvores de decisão funcionam.
Uma árvore de decisão totalmente desenvolvida possui 1 instância boa ou 1 incorreta em seus nós terminais. Suponha que eu limite o tamanho do nó do terminal como 100. Em seguida, os nós do terminal terão a seguinte aparência:
Nó1 = 80 ruim, 20 bom
Nó2 = 51 ruim, 49 bom
Nó3 = 10 ruim, 90 bom
Observe que, embora o Nó1 e o Nó2 votem "ruim", sua "força da maldade" é severamente diferente. É disso que eu estou depois. Em vez de fazê-los produzir 1 ou 0 (qual é o comportamento padrão), pode-se modificar o pacote R para votar 80/100, 51/100, 10/100 etc?