A máquina de aumento de gradiente de Friedman pode obter melhor desempenho do que a Random Forest de Breiman ? Em caso afirmativo, em quais condições ou que tipo de conjunto de dados pode melhorar o gbm?
A máquina de aumento de gradiente de Friedman pode obter melhor desempenho do que a Random Forest de Breiman ? Em caso afirmativo, em quais condições ou que tipo de conjunto de dados pode melhorar o gbm?
Respostas:
A seguir, é apresentada uma explicação do motivo pelo qual o Boosting geralmente supera a Random Forest na prática, mas eu ficaria muito interessado em saber quais outros fatores diferentes podem explicar a vantagem do Boosting sobre a RF em configurações específicas.
Por outro lado, o Boosting reduz o viés (adicionando cada nova árvore na sequência para que o que foi perdido pela árvore anterior seja capturado), mas também a variação (combinando muitos modelos).
Portanto, o impulso reduz o erro nas duas frentes, enquanto o RF pode reduzir o erro apenas através da redução da variação. Obviamente, como eu disse, pode haver outras explicações para o melhor desempenho do Boosting observado na prática. Por exemplo, na página 591 do livro mencionado acima, é dito que o Boosting supera a RF no problema da esfera aninhada porque, nesse caso específico, o verdadeiro limite de decisão é aditivo . (?) Eles também relatam que o Boosting se sai melhor que o RF nos dados de spam e de habitação da Califórnia.
Outra referência que encontrou o Boosting para superar a RF é Caruana e Niculescu-Mizil 2006 . Infelizmente, eles relatam os resultados, mas não tentam explicar o que os causa. Eles compararam os dois classificadores (e muitos mais) em 11 problemas de classificação binária para 8 métricas de desempenho diferentes.
Como bayerj disse, não há como saber a priori!
As florestas aleatórias são relativamente fáceis de calibrar: os parâmetros padrão da maioria das implementações (R ou Python, por exemplo) alcançam ótimos resultados.
Por outro lado, os GBMs são difíceis de ajustar (um número muito grande de árvores leva ao super ajuste, a profundidade máxima é crítica, a taxa de aprendizado e o número de árvores agem juntas ...) e mais tempo para treinar (implementações multithread são escassas) . Uma afinação pouco executada pode levar a um baixo desempenho.
No entanto, pela minha experiência, se você gastar tempo suficiente em GBMs, provavelmente alcançará um desempenho melhor que a floresta aleatória.
A loosely performed tuning may lead to dramatic performance?
Cuidado com a má interpretação, porque em inglês dramatic
significa muito bom, excepcional, fenomenal, etc.! Eu acho que é o oposto do que você queria dizer ... Além disso, você tem alguma explicação sobre por que os GBMs sintonizados com cuidado superam o RF? Esta é basicamente a pergunta ...