Explicações intuitivas das diferenças entre árvores de aumento de gradiente (GBM) e Adaboost


48

Estou tentando entender as diferenças entre o GBM e o Adaboost.

Estes são o que eu entendi até agora:

  • Existem dois algoritmos de otimização, que aprendem com os erros do modelo anterior e finalmente fazem uma soma ponderada dos modelos.
  • GBM e Adaboost são bem parecidos, exceto por suas funções de perda.

Mas ainda é difícil para mim ter uma idéia das diferenças entre eles. Alguém pode me dar explicações intuitivas?

Respostas:


34

Eu descobri que esta introdução pode fornecer algumas explicações intuitivas.

  • No aumento de gradiente, as 'deficiências' (dos alunos fracos existentes) são identificadas por gradientes .
  • No Adaboost, as 'deficiências' são identificadas por pontos de dados de alto peso .

No meu entendimento, a perda exponencial do Adaboost fornece mais pesos para as amostras ajustadas pior. De qualquer forma, o Adaboost é considerado como um caso especial de reforço de gradiente em termos de função de perda, conforme mostrado na história do reforço de gradiente fornecida na introdução.

  1. Invente o Adaboost, o primeiro algoritmo de impulso bem-sucedido [Freund et al., 1996, Freund e Schapire, 1997]
  2. Formule Adaboost como descida de gradiente com uma função de perda especial [Breiman et al., 1998, Breiman, 1999]
  3. Generalize o Adaboost ao Gradient Boosting para lidar com uma variedade de funções de perda [Friedman et al., 2000, Friedman, 2001]

11

Uma explicação intuitiva do algoritmo AdaBoost

Deixe-me aproveitar a excelente resposta de @ Randel com uma ilustração do seguinte ponto


  • No Adaboost, as 'deficiências' são identificadas por pontos de dados de alto peso

Resumo do AdaBoost

Gm(x) m=1,2,...,M

G(x)=sign(α1G1(x)+α2G2(x)+...αMGM(x))=sign(m=1MαmGm(x))
  • A previsão final é uma combinação das previsões de todos os classificadores por meio de uma votação majoritária ponderada

  • αmGm(x)

  • w1,w2,...,wNm
  • m=1wi=1/N

AdaBoost em um exemplo de brinquedo

M=10

insira a descrição da imagem aqui

Visualizando a sequência de alunos fracos e os pesos da amostra

m=1,2...,6

insira a descrição da imagem aqui

Primeira iteração:

  • O limite de decisão é muito simples (linear), pois são aprendizes fracos
  • Todos os pontos são do mesmo tamanho, conforme o esperado
  • 6 pontos azuis estão na região vermelha e são classificados incorretamente

Segunda iteração:

  • O limite de decisão linear mudou
  • Os pontos azuis previamente classificados incorretamente agora são maiores (maior peso_ amostral) e influenciaram o limite de decisão
  • 9 pontos azuis agora são classificados incorretamente

Resultado final após 10 iterações

αm

([1.041, 0.875, 0.837, 0.781, 1.04, 0.938 ...

Como esperado, a primeira iteração tem o maior coeficiente, pois é a que apresenta menos classificações incorretas.

Próximos passos

Uma explicação intuitiva do aumento de gradiente - a ser concluída

Fontes e leituras adicionais:

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.