Precisa de ajuda para entender a proposta aproximada de pontos de divisão do xgboost

12

fundo:

em xgboost os tentativas de iteração para caber uma árvore sobre todos os exemplos que minimiza o seguinte objectivo: $t$ $f_t$ $n$

\sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})]

$\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)]$

onde são de primeira ordem e segunda derivadas de ordem mais nosso anterior melhor estimativa (de iteração ): $g_i, h_i$ $\hat{y}$ $t-1$

$g_i=d_{\hat{y}}l(y_i, \hat{y})$
$h_i=d^2_{\hat{y}}l(y_i, \hat{y})$

e é a nossa função de perda. $l$

A questão (finalmente):

Ao construir e considerando uma característica específica em uma fração específica, eles usam o seguinte heurística para avaliar única alguns candidatos divididos: eles ordenam todos os exemplos por sua , passar por cima da lista ordenada e soma sua segunda derivada . Eles consideram um candidato dividido apenas quando a soma muda mais de . Por que é que??? $f_t$ $k$ $x_k$ $h_i$ $\epsilon$

A explicação que eles dão me escapa:

Eles afirmam que podemos reescrever a equação anterior da seguinte forma:

\sum_{i = 1}^{n} \frac{1}{2} h_{i} [f_{t} (x_{i}) - g_{i} / h_{i}]^{2} + c o n s t a n t

$\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - g_i/h_i]^2 + constant$

e não consigo seguir a álgebra - você pode mostrar por que é igual?

E eles alegam que "isso é exatamente perda quadrada ponderada com rótulos e pesos " - uma afirmação com a qual concordo, mas não entendo como isso se relaciona com o algoritmo de candidato a divisão que eles estão usando. .. $gi/hi$ $h_i$

Obrigado e desculpe se isso for muito longo para este fórum.

xgboost gbm

— ihadanny
fonte

8

Não vou entrar em detalhes, mas o seguinte deve ajudá-lo a entender a idéia.

Eles usam Quantiles (Wikipedia) para determinar onde dividir. Se você tiver 100 pontos de divisão possíveis, (classificados), poderá tentar os pontos de divisão dos quantiles $\{x_1, \cdots, x_{100}\}$ $10$ e já terá uma boa aproximação. Isto é o que oparâmetro está fazendo. Eles consideram um ponto de divisão, quando a divisão temmais pontos sob ela que o último ponto de divisão. Se $\{x_{10}, x_{20}, \cdots, x_{90}\}$ $\epsilon$ $\sim \epsilon N$ $\epsilon = 0.01$ , Você vai acabar com pontos de divisão, sendo maior do que dos outros pontos. Eles não consideram uma nova divisão quando "a soma muda mais de ", mas quando o número de pontos sob o ponto atual é maior em que o último. $\sim 100$ $\{1\%, 2\%, ..., 99\%\}$ $\epsilon$ $\epsilon$

Agora, se você tiver muitos pontos contínuos que já estão bem classificados, pode ser inútil dividir entre eles. Você deseja dividir as partes do seu conjunto de dados que estão muito erradas, as que são difíceis de aprender. Para fazer isso, eles usam quantis ponderados. É aqui que os pesos desempenham um papel. O primeiro número não será o primeiro ponto maior que dos pontos, mas o primeiro ponto maior que dos pesos. $10$ $10\%$ $10\%$

— Winks
fonte

Eu entrei apenas para lhe dar um voto positivo. Obrigado pela explicação fácil de entender.

— Pakpoom Tiwakornkit 20/03/19

3

Basta adicionar a parte algébrica à resposta do @Winks:

A segunda equação deve ter seu sinal invertido, como em:

\sum_{Eu = 1}^{n} \frac{1}{2} h_{Eu} [f_{t} (x_{Eu}) - (- g_{Eu} / h_{Eu})]^{2} + c o n s t uma n t = \sum_{Eu = 1}^{n} \frac{1}{2} h_{Eu} [f_{t}^{2} (x_{Eu}) + 2 \frac{f_{t} (x_{Eu}) g_{Eu}}{h_{Eu}} + (g_{Eu} / h_{Eu})^{2}] = \sum_{Eu = 1}^{n} [g_{Eu} f_{t} (x_{Eu}) + \frac{1}{2} h_{Eu} f_{t}^{2} (x_{Eu}) + \frac{g {Eu}^{2}}{2 h_{Eu}}]

$\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - (-g_i/h_i)]^2 + constant = \sum_{i=1}^n\frac{1}{2}h_i[f_t^2(x_i) + 2\frac{f_t(x_i)g_i}{h_i} + (g_i/h_i)^2] = \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) + \frac{gi^2}{2h_i}]$

O último termo é de fato constante: lembre-se de que o $g_i$ e são determinados pela iteração anterior, portanto são constantes ao tentar definir . $h_i$ $f_t$

Então, agora podemos reivindicar "isso é exatamente perda quadrada ponderada com rótulos pesos " $-gi/hi$ $h_i$

O crédito é para Yaron e Avi, da minha equipe, por me explicar isso.

— ihadanny
fonte

0

E então eles afirmam que "isso é exatamente perda quadrada ponderada com rótulos gi / higi / hi e pesos hihi" - uma afirmação com a qual concordo, mas não entendo como isso se relaciona com o algoritmo de candidato dividido que eles estão usando. .

Se houver apenas uma amostra e você estiver otimizando $w$ em $t-t_h$ iteração, é fácil ver que o valor seria $w* = -gi/hi$ , explicando $(ft - -(gi/hi))^2$
$w*$ $-avg(gi)/const$ $-sigma(gi)/sigma(hi)$ $w*$ $hi$ $gi$ $w*$ $hi$

$hi$ .

— xy.Z
fonte