Ensacamento é a geração de múltiplos preditores que funcionam como um único preditor. A desistência é uma técnica que ensina às redes neurais a média de todas as sub-redes possíveis. Olhando para as competições mais importantes do Kaggle, parece que essas duas técnicas são usadas juntas com muita frequência. Não vejo diferença teórica além da implementação real. Quem pode me explicar por que devemos usar os dois em qualquer aplicativo real? e por que o desempenho melhora quando usamos os dois?