Por que a poda não é necessária para árvores florestais aleatórias?


20

Breiman diz que as árvores são cultivadas sem poda. Por quê? Quero dizer que deve haver uma sólida razão pela qual as árvores da floresta aleatória não são podadas. Por outro lado, é considerado muito importante podar uma única árvore de decisão para evitar o excesso de ajuste. Existe alguma literatura disponível para leitura por esse motivo? É claro que as árvores podem não estar correlacionadas, mas ainda haverá a possibilidade de um ajuste excessivo.


Você realmente precisa dizer mais sobre o contexto aqui. @ChrisA. fez uma tentativa notável, mas é difícil saber se sua pergunta é realmente respondida, porque é difícil saber muito sobre seu dilema.
gung - Restabelece Monica

2
O que mais precisa ser dito? A questão é muito clara.
21417 Seanosapien

Respostas:


20

Grosso modo, parte do potencial excesso de ajuste que pode acontecer em uma única árvore (que é uma razão para a remoção geralmente) é atenuada por duas coisas em uma Floresta Aleatória:

  1. O fato de que as amostras usadas para treinar as árvores individuais são "inicializadas".
  2. O fato de você ter várias árvores aleatórias usando recursos aleatórios e, portanto, as árvores individuais serem fortes, mas não tão correlacionadas entre si.

Editar: com base no comentário do OP abaixo:

Definitivamente, ainda há potencial para excesso de ajuste. Quanto aos artigos, você pode ler sobre a motivação para "ensacamento" de Breiman e "bootstrapping" em geral por Efron e Tibshirani. No que diz respeito a 2., Brieman derivou um limite limitado de erro de generalização relacionado à força das árvores e à anti-correlação dos classificadores individuais. Ninguém usa o limite (provavelmente), mas tem como objetivo fornecer intuição sobre o que ajuda a erros de generalização baixos em métodos de ensemble. Isso está no próprio jornal Random Forests. Meu post foi para empurrá-lo na direção certa, com base nessas leituras e na minha experiência / deduções.

  • Breiman, L., Preditores de ensacamento, aprendizado de máquina, 24 (2), pp.123-140, 1996.
  • Efron, B .; Tibshirani, R. (1993). Uma introdução ao Bootstrap. Boca Raton, Flórida
  • Breiman, Leo (2001). "Florestas aleatórias". Aprendizado de máquina 45 (1): 5–32.

Mas ainda pode haver uma possibilidade de sobreajuste. Você pode citar um artigo para ler sobre isso?
Zhan

@ Z Khan Você talvez também seja este Z Khan ? Nesse caso, informe-nos para que possamos mesclar suas contas.
whuber

3
@ZKhan A questão do excesso de ajustes nas RFs é abordada em Hastie et al, (2009) Elements of Statistical Learning, 2ª Edição . Há um PDF gratuito disponível no site para o livro. Confira o capítulo sobre florestas aleatórias.
Reinstate Monica - G. Simpson (
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.