Enquanto aprendia sobre o Gradient Boosting, não ouvi nenhuma restrição sobre as propriedades de um "classificador fraco" que o método usa para criar e agrupar modelos. No entanto, eu não conseguia imaginar uma aplicação de um GB que usa regressão linear e, de fato, quando realizei alguns testes - ele não funciona. Eu estava testando a abordagem mais padrão com um gradiente de soma de resíduos quadrados e adicionando os modelos subseqüentes.
O problema óbvio é que os resíduos do primeiro modelo são preenchidos de tal maneira que não há realmente nenhuma linha de regressão adequada. Minha outra observação é que uma soma dos modelos de regressão linear subsequentes também pode ser representada como um modelo de regressão único (adicionando todas as interceptações e coeficientes correspondentes), portanto não consigo imaginar como isso poderia melhorar o modelo. A última observação é que uma regressão linear (a abordagem mais típica) está usando a soma dos resíduos quadrados como uma função de perda - a mesma que GB está usando.
Também pensei em diminuir a taxa de aprendizado ou usar apenas um subconjunto de preditores para cada iteração, mas isso ainda pode ser resumido em uma única representação de modelo, por isso acho que não traria nenhuma melhoria.
O que estou perdendo aqui? A regressão linear é de alguma forma inadequada para uso com o Gradient Boosting? É porque a regressão linear usa a soma dos resíduos quadrados como uma função de perda? Existem restrições específicas nos preditores fracos para que possam ser aplicados ao Gradient Boosting?