A idéia principal é o procedimento de ensacamento, não tornando as árvores aleatórias. Em detalhes, cada árvore é construída sobre uma amostra de objetos desenhados com substituição do conjunto original; portanto, cada árvore tem alguns objetos que não viu, o que torna o conjunto mais heterogêneo e, portanto, melhor na generalização.
Além disso, as árvores estão sendo enfraquecidas de tal forma que em cada divisão apenas M (ou mtry
) atributos selecionados aleatoriamente são considerados; M é geralmente uma raiz quadrada do número de atributos no conjunto. Isso garante que as árvores sejam menos ajustadas, pois não são podadas. Você pode encontrar mais detalhes aqui .
Por outro lado, existe uma variante de RF chamada Extreme Random Forest, na qual as árvores são feitas de maneira aleatória (não há otimização de divisões) - consulte, acho essa referência .