Como o gradiente está aumentando como a descida do gradiente?

Estou lendo a útil entrada da Wikipedia sobre aumento de gradiente ( https://en.wikipedia.org/wiki/Gradient_boosting ) e tento entender como / por que podemos aproximar os resíduos pela etapa de descida mais íngreme (também chamada de pseudo-gradiente ) Alguém pode me dar a intuição de como a descida mais íngreme está ligada / semelhante aos resíduos? Ajuda muito apreciada!

self-study gradient-descent

— Wouter
fonte

Suponha que estamos na seguinte situação. Temos alguns dados , onde cada pode ser um número ou vetor, e gostaríamos de determinar uma função que se aproxima do relacionamento , no sentido de que os mínimos quadrados erro: $\{ x_i, y_i \}$ $x_i$ $f$ $f(x_i) \approx y_i$

\frac{1}{2} \sum_{i} (y_{i} - f (x_{i}))^{2}

$\frac{1}{2} \sum_i (y_i - f(x_i))^2$

é pequeno.

Agora, entra a pergunta sobre o que gostaríamos que fosse o domínio de . Uma escolha degenerada para o domínio são apenas os pontos em nossos dados de treinamento. Nesse caso, podemos apenas definir , cobrindo todo o domínio desejado, e terminar com ele. Uma maneira de chegar a essa resposta é fazer uma descida gradual com esse espaço discreto como domínio. Isso leva um pouco de mudança no ponto de vista. Vamos ver a perda como uma função do ponto verdadeiro e a previsão (no momento, não é uma função, mas apenas o valor da previsão) $f$ $f(x_i) = y$ $y$ $f$ $f$

L (f; y) = \frac{1}{2} (y - f)^{2}

$L(f; y) = \frac{1}{2} (y - f)^2$

e depois pegue o gradiente com relação à previsão

\nabla_{f} L (f; y) = f - y

$\nabla_f L(f; y) = f - y$

Em seguida, a atualização do gradiente, começando com um valor inicial de é $y_0$

y_{1} = y_{0} - \nabla_{f} (y_{0}, y) = y_{0} - (y_{0} - y) = y

$y_1 = y_0 - \nabla_f (y_0, y) = y_0 - (y_0 - y) = y$

Portanto, recuperamos nossa previsão perfeita em uma etapa gradiente com essa configuração, o que é bom!

A falha aqui é, obviamente, que queremos que seja definido em muito mais do que apenas nossos pontos de dados de treinamento. Para fazer isso, precisamos fazer algumas concessões, pois não podemos avaliar a função de perda ou seu gradiente em nenhum outro ponto que não seja nosso conjunto de dados de treinamento. $f$

A grande idéia é aproximar fraca . $\nabla L$

Startcom um palpite inicial em , quase sempre uma função constante simples , isso é definido em todos os lugares. Agora gere um novo conjunto de dados de trabalho avaliando o gradiente da função de perda nos dados de treinamento, usando o palpite inicial para : $f$ $f(x) = f_0$ $f$

W = {x_{i}, f_{0} - y}

$W = \{ x_i, f_0 - y \}$

Now approximate $\nabla L$ por encaixe aluno fraco para . Digamos que temos a aproximação . Ganhamos uma extensão dos dados em todo o domínio na forma de , embora tenhamos perdido precisão nos pontos de treinamento, uma vez que adaptamos um aluno pequeno. $W$ $F \approx \nabla L$ $W$ $F(X)$

Finally, use no lugar de na atualização gradiente de em todo o domínio: $F$ $\nabla L$ $f_0$

f_{1} (x) = f_{0} (x) - F (x)

$f_1(x) = f_0(x) - F(x)$

Nós sair , uma nova aproximação das , um pouco melhor do que . Comece de novo com e itere até ficar satisfeito. $f_1$ $f$ $f_0$ $f_1$

Felizmente, você vê que o que é realmente importante é aproximar o gradiente da perda. No caso de minimização de mínimos quadrados, isso assume a forma de resíduos brutos, mas em casos mais sofisticados, não. A maquinaria ainda se aplica. Desde que se possa construir um algoritmo para calcular a perda e o gradiente de perda nos dados de treinamento, podemos usar esse algoritmo para aproximar uma função que minimiza essa perda.

— Matthew Drury
fonte

\sum_{i} y_{i} \log (p_{i}) + (1 - y_{i}) \log (1 - p_{i})

$\sum_i y_i \log (p_i) + (1 - y_i) \log(1 - p_i)$

α_{m} * h (m)

$\alpha_m*h(m)$

0, 1

$0,1$

f_{1}

$f_1$

f_{0} - F (x)

$f_0-F(x)$

f_{0} - α * F (x)

$f_0-\alpha*F(x)$

α

$\alpha$

@ hxd1011 Sim, isso é absolutamente correto e crucial para o uso eficiente do gradiente.

— Matthew Drury