É mais fácil começar com sua segunda pergunta e depois passar para a primeira.
Ensacamento
Random Forest é um algoritmo de empacotamento. Reduz a variação.
Digamos que você tenha modelos muito não confiáveis, como Árvores de Decisão. (Por que não confiável? Porque, se você alterar um pouco seus dados, a árvore de decisão criada pode ser muito diferente.) Nesse caso, você pode criar um modelo robusto (reduzir a variação) por meio da ensacamento - ensacar é quando você cria modelos diferentes reamostrando seus dados para tornar o modelo resultante mais robusto.
Floresta aleatória é o que chamamos de empacotamento aplicado a árvores de decisão, mas não é diferente de outro algoritmo de empacotamento.
Por que você quer fazer isso? Depende do problema. Mas geralmente, é altamente desejável que o modelo seja estável.
Impulsionar
Aumentar reduz a variação e também reduz o viés. Reduz a variação porque você está usando vários modelos (ensacamento). Reduz o viés treinando o modelo subseqüente, informando quais erros os modelos anteriores cometeram (a parte impulsionadora).
Existem dois algoritmos principais:
- Adaboost: este é o algoritmo original; você diz aos modelos subseqüentes para punir mais fortemente as observações confundidas com os modelos anteriores
- Aumento de gradiente: você treina cada modelo subsequente usando os resíduos (a diferença entre os valores previstos e os verdadeiros)
Nestes conjuntos, o aluno básico deve ser fraco. Se ajustar demais os dados, não haverá resíduos ou erros para os modelos subseqüentes. Por que esses bons modelos? Bem, a maioria das competições em sites como o Kaggle foram vencidas usando árvores de aumento de gradiente. A ciência de dados é uma ciência empírica, "porque funciona" é boa o suficiente. De qualquer forma, observe que o aumento de modelos pode superajustar (embora empiricamente não seja muito comum).
Outra razão pela qual o aumento do gradiente, em particular, também é bastante interessante: porque facilita muito o uso de diferentes funções de perda, mesmo quando o derivado não é convexo. Por exemplo, ao usar a previsão probabilística, você pode usar coisas como a função de pinball como sua função de perda; algo que é muito mais difícil com as redes neurais (porque a derivada é sempre constante).
[Nota histórica interessante: Boosting foi originalmente uma invenção teórica motivada pela pergunta " podemos construir um modelo mais forte usando modelos mais fracos "]
Nota: Às vezes, as pessoas confundem árvores aleatórias de floresta e aumento de gradiente, apenas porque ambas usam árvores de decisão, mas são duas famílias muito diferentes de conjuntos.