O principal caso de uso para ensacamento é reduzir a variação dos modelos de baixa polarização agrupando-os. Isso foi estudado empiricamente no artigo de referência " Uma comparação empírica dos algoritmos de classificação da votação: ensacamento, reforço e variantes " de Bauer e Kohavi . Geralmente funciona como anunciado.
No entanto, contrariamente à crença popular, o ensacamento não é garantido para reduzir a variação . Uma explicação mais recente e (na minha opinião) melhor é que o ensacamento reduz a influência dos pontos de alavancagem. Pontos de alavancagem são aqueles que afetam desproporcionalmente o modelo resultante, como outliers na regressão de mínimos quadrados. É raro, mas possível, que os pontos de alavancagem influenciem positivamente os modelos resultantes. Nesse caso, o ensacamento reduz o desempenho. Dê uma olhada em " Ensacamento iguala influência " por Grandvalet .
Portanto, para finalmente responder à sua pergunta: o efeito do ensacamento depende em grande parte dos pontos de alavancagem. Existem poucas garantias teóricas, exceto que o empacotamento aumenta linearmente o tempo de computação em termos de tamanho do saco! Dito isto, ainda é uma técnica amplamente usada e muito poderosa. Ao aprender com o ruído da etiqueta, por exemplo, o ensacamento pode produzir classificadores mais robustos .
Rao e Tibshirani deram uma interpretação bayesiana em " O método out-of-bootstrap para média e seleção de modelos " :
Nesse sentido, a distribuição de bootstrap representa uma distribuição posterior (paramétrica) não paramétrica e não informativa para o nosso parâmetro. Mas essa distribuição de bootstrap é obtida sem dor - sem ter que especificar formalmente uma prévia e sem ter que amostrar a partir da distribuição posterior. Portanto, podemos pensar na distribuição de bootstrap como um homem pobre "Bayes posterior.