Se considerarmos uma árvore de decisão adulta (ou seja, uma árvore de decisão não podada), ela tem alta variação e baixo viés.
Ensacamentos e florestas aleatórias usam esses modelos de alta variação e os agregam para reduzir a variação e, assim, aprimorar a precisão da previsão. Ambas as Florestas Ensacadas e Aleatórias usam amostragem Bootstrap e, conforme descrito em "Elementos de Aprendizagem Estatística", isso aumenta o viés na árvore única.
Além disso, como o método Random Forest limita a divisão de variáveis permitidas em cada nó, o viés para uma única árvore de floresta aleatória aumenta ainda mais.
Assim, a precisão da previsão é aumentada apenas se o aumento do viés das árvores isoladas em Ensacamentos e Florestas Aleatórias não estiver "ofuscando" a redução da variação.
Isso me leva às duas perguntas a seguir: 1) Eu sei que, com a amostragem de bootstrap, (quase sempre) teremos algumas das mesmas observações na amostra de bootstrap. Mas por que isso leva a um aumento no viés das árvores individuais em Florestas Ensacadas / Aleatórias? 2) Além disso, por que o limite de variáveis disponíveis para divisão em cada divisão leva a um viés mais alto nas árvores individuais das florestas aleatórias?