Recentemente, me interessei pelo empilhamento de modelos como uma forma de aprendizado por conjunto. Em particular, experimentei um pouco com alguns conjuntos de dados de brinquedos para problemas de regressão. Eu basicamente implementei regressores individuais de "nível 0", armazenei as previsões de saída de cada regressor como um novo recurso que um "meta-regressor" deve ter como entrada e encaixe esse meta-regressor nesses novos recursos (as previsões do nível 0 regressores). Fiquei extremamente surpreso ao ver melhorias modestas nos regressores individuais ao testar o meta-regressor em relação a um conjunto de validação.
Então, eis a minha pergunta: por que o empilhamento de modelos é eficaz? Intuitivamente, eu esperaria que o modelo que está fazendo o empilhamento tenha um desempenho ruim, pois parece ter uma representação de recursos empobrecida em comparação com cada um dos modelos de nível 0. Ou seja, se eu treinar 3 regressores de nível 0 em um conjunto de dados com 20 recursos e usar as previsões desses regressores de nível 0 como entrada para meu meta-regressor, isso significa que meu meta-regressor tem apenas 3 recursos para aprender. Parece que há mais informações codificadas nos 20 recursos originais que os regressores de nível 0 têm para treinamento do que nos 3 recursos de saída que o meta-regressor usa para treinamento.