Na Floresta Aleatória, cada árvore é cultivada em paralelo em uma amostra exclusiva dos dados. Como se espera que cada amostra do boostrap contenha cerca de 63% das observações exclusivas, isso deixa cerca de 37% das observações de fora, que podem ser usadas para testar a árvore.
Agora, parece que no Estochastic Gradient Boosting, também há uma semelhante à do RF:
Se bag.fraction for definido como maior que 0 (0,5 é recomendado), o gbm calcula uma estimativa de out-of-bag da melhoria no desempenho preditivo. Ele avalia a redução no desvio nas observações não usadas na seleção da próxima árvore de regressão.
Fonte: Ridgeway (2007) , seção 3.3 (página 8).
Tenho problemas para entender como funciona / é válido. Digamos que estou adicionando uma árvore na sequência. Estou crescendo essa árvore em uma subamostra aleatória do conjunto de dados original. Eu poderia testar essa única árvore nas observações que não foram usadas para cultivá-la. Acordado. MAS , como o Boosting é seqüencial, estou usando a sequência inteira de árvores construídas até agora para fornecer uma previsão para essas observações deixadas de fora. E, há uma grande chance de que muitas das árvores anteriores já tenham visto essas observações. Então o modelo não está realmente sendo testado a cada rodada em observações invisíveis, como com RF, certo?
Então, como é que isso é chamado de estimativa de erro "pronto para uso"? Para mim, não parece estar "fora" de nenhuma sacola, já que as observações já foram vistas?