Não é garantido. Como você diz, o conjunto pode ser pior que os modelos individuais. Por exemplo, tirar a média do modelo verdadeiro e de um modelo ruim daria um modelo bastante ruim.
A média de modelos só será uma melhoria se os modelos forem (um pouco) independentes um do outro. Por exemplo, no empacotamento, cada modelo é construído a partir de um subconjunto aleatório dos dados, para que seja incorporada alguma independência. Ou os modelos podem ser construídos usando diferentes combinações de recursos e, em seguida, combinados pela média.k
Além disso, a média do modelo só funciona bem quando os modelos individuais têm alta variação. É por isso que uma floresta aleatória é construída usando árvores muito grandes. Por outro lado, a média de vários modelos de regressão linear ainda fornece um modelo linear, que provavelmente não será melhor do que os modelos com os quais você começou (tente!)
Outros métodos de conjunto, como aumentar e mesclar, funcionam usando as saídas de modelos individuais, juntamente com os dados de treinamento, como entradas para um modelo maior. Nesse caso, não é surpreendente que eles geralmente funcionem melhor do que os modelos individuais, pois na verdade são mais complicados e ainda usam os dados de treinamento.