Sob quais condições as máquinas de aumento de gradiente superam as florestas aleatórias?

A máquina de aumento de gradiente de Friedman pode obter melhor desempenho do que a Random Forest de Breiman ? Em caso afirmativo, em quais condições ou que tipo de conjunto de dados pode melhorar o gbm?

— user22062
fonte

Não há como dizer a priori; você tem que experimentar.

— bayerj

bem, na prática, o Boosting quase sempre supera o RF ... Embora eu realmente não saiba exatamente o porquê, eu pessoalmente não encontrei nenhum caso em que o RF tenha superado o Boosting.

— Antoine

A aprendizagem do @Antoine com dados não rotulados e / ou ruído na etiqueta é um caso de uso especialmente terrível para aumentar.

— Marc Claesen

Bem, RF e Boosting são usados principalmente para tarefas de aprendizado supervisionado, mesmo que às vezes seja verdade que o RF possa ser usado para cluster. O Adaboost não é muito robusto para rotular incorretamente devido à função de perda exponencial que é altamente influenciada pelo ruído, mas o Estocástico Gradient Boosting no caso geral (com desvio multinomial por exemplo) é mais robusto.

— Antoine

@MarcClaesen você poderia dar uma olhada nessa pergunta, por favor?

— Antoine

Respostas:

A seguir, é apresentada uma explicação do motivo pelo qual o Boosting geralmente supera a Random Forest na prática, mas eu ficaria muito interessado em saber quais outros fatores diferentes podem explicar a vantagem do Boosting sobre a RF em configurações específicas.

$error=bias+variance$

Por outro lado, o Boosting reduz o viés (adicionando cada nova árvore na sequência para que o que foi perdido pela árvore anterior seja capturado), mas também a variação (combinando muitos modelos).

Portanto, o impulso reduz o erro nas duas frentes, enquanto o RF pode reduzir o erro apenas através da redução da variação. Obviamente, como eu disse, pode haver outras explicações para o melhor desempenho do Boosting observado na prática. Por exemplo, na página 591 do livro mencionado acima, é dito que o Boosting supera a RF no problema da esfera aninhada porque, nesse caso específico, o verdadeiro limite de decisão é aditivo . (?) Eles também relatam que o Boosting se sai melhor que o RF nos dados de spam e de habitação da Califórnia.

Outra referência que encontrou o Boosting para superar a RF é Caruana e Niculescu-Mizil 2006 . Infelizmente, eles relatam os resultados, mas não tentam explicar o que os causa. Eles compararam os dois classificadores (e muitos mais) em 11 problemas de classificação binária para 8 métricas de desempenho diferentes.

— Antoine
fonte

Como bayerj disse, não há como saber a priori!

As florestas aleatórias são relativamente fáceis de calibrar: os parâmetros padrão da maioria das implementações (R ou Python, por exemplo) alcançam ótimos resultados.

Por outro lado, os GBMs são difíceis de ajustar (um número muito grande de árvores leva ao super ajuste, a profundidade máxima é crítica, a taxa de aprendizado e o número de árvores agem juntas ...) e mais tempo para treinar (implementações multithread são escassas) . Uma afinação pouco executada pode levar a um baixo desempenho.

No entanto, pela minha experiência, se você gastar tempo suficiente em GBMs, provavelmente alcançará um desempenho melhor que a floresta aleatória.

$m$

— RUser4512
fonte

A loosely performed tuning may lead to dramatic performance?Cuidado com a má interpretação, porque em inglês dramaticsignifica muito bom, excepcional, fenomenal, etc.! Eu acho que é o oposto do que você queria dizer ... Além disso, você tem alguma explicação sobre por que os GBMs sintonizados com cuidado superam o RF? Esta é basicamente a pergunta ...

— Antoine