Por que os derivativos de segunda ordem são úteis na otimização convexa?

18

Acho que essa é uma pergunta básica e tem a ver com a direção do próprio gradiente, mas estou procurando exemplos em que os métodos de 2ª ordem (por exemplo, BFGS ) são mais eficazes do que a simples descida do gradiente.

optimization

— Barra
fonte

3

É simplista demais observar apenas que "encontrar o vértice de um parabolóide" é uma aproximação muito melhor do problema "encontrar um mínimo" do que "encontrar o mínimo dessa função linear" (que, é claro, não tem mínimo porque é linear)?

20

Aqui está uma estrutura comum para interpretar a descida do gradiente e o método de Newton, que talvez seja uma maneira útil de pensar na diferença como um complemento à resposta do @ Sycorax. (BFGS aproxima o método de Newton; não falarei sobre isso em particular aqui.)

Estamos minimizando a função , mas não sabemos como fazer isso diretamente. Então, em vez disso, adotamos uma aproximação local em nosso ponto atual e minimizamos isso. $f$ $x$

O método de Newton aproxima a função usando uma expansão de Taylor de segunda ordem: onde denota o gradiente de no ponto e o Hessiano em . Em seguida, avança para e se repete.

f (y) \approx N_{x} (y) := f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \nabla^{2} f (x) (y - x),

$f(y) \approx N_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y - x)^T \, \nabla^2 f(x) \, (y - x) ,$

\nabla f (x)

$\nabla f(x)$

f

$f$

x

$x$

\nabla^{2} f (x)

$\nabla^2 f(x)$

x

$x$

\arg min_{y} N_{x} (y)

$\arg\min_y N_x(y)$

A descida do gradiente, apenas com o gradiente e não o hessiano, não pode apenas fazer uma aproximação de primeira ordem e minimizar isso, já que como observou @Hurkyl, não há um mínimo. Em vez disso, definimos um tamanho de etapa passo para $t$ . Mas observe que $x - t \nabla f(x)$ Assim, a descida do gradiente minimiza uma função

\begin{aligned} x - t \nabla f (x) & = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2 t} ‖ y - x ‖^{2}] \\ = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} I (y - x)] . \end{aligned}

$\begin{align} x - t \,\nabla f(x) &= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac{1}{2 t} \lVert y - x \rVert^2\right] \\&= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x)\right] .\end{align}$

G_{x} (y) := f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} I (y - x) .

$G_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x).$

Assim, a descida do gradiente é como usar o método de Newton, mas em vez de considerar a expansão de Taylor de segunda ordem, fingimos que o Hessiano é . Essegeralmente é uma aproximação substancialmente pior dequee, portanto, a descida do gradiente geralmente dá passos muito piores que o método de Newton. Isso é contrabalançado, é claro, pois cada passo da descida do gradiente é muito mais barato de calcular do que cada passo do método de Newton. O que é melhor depende inteiramente da natureza do problema, de seus recursos computacionais e de seus requisitos de precisão. $\tfrac1t I$ $G$ $f$ $N$

Observando o exemplo da @ Sycorax de minimizar um quadrático

f (x) = \frac{1}{2} x^{T} A x + d^{T} x + c

$f(x) = \tfrac12 x^T A x + d^T x + c$

$N = f$

G_{x} (y) = f (x) + (A x + d)^{T} y + \frac{1}{2} (x - y)^{T} \frac{1}{t} I (x - y)

$G_x(y) = f(x) + (A x + d)^T y + \tfrac12 (x - y)^T \tfrac1t I (x-y)$

x

$x$

A

$A$

— Dougal
fonte

1

Isso é semelhante à resposta de @ Aksakal , mas com mais profundidade.

— Dougal

1

(+1) Esta é uma ótima adição!

— Sycorax diz Reinstate Monica

17

Essencialmente, a vantagem de um método de segunda derivada como o método de Newton é que ele tem a qualidade da terminação quadrática. Isso significa que ele pode minimizar uma função quadrática em um número finito de etapas. Um método como a descida em gradiente depende muito da taxa de aprendizado, o que pode fazer com que a otimização converja lentamente, porque está oscilando em torno do ideal ou divergir completamente. Taxas de aprendizado estáveis podem ser encontradas ... mas envolvem a computação do hessian. Mesmo ao usar uma taxa de aprendizado estável, você pode ter problemas como oscilação em torno do ideal, ou seja, nem sempre seguirá um caminho "direto" ou "eficiente" em direção ao mínimo. Portanto, pode levar muitas iterações para terminar, mesmo sevocê é relativamente próximo disso. O método BFGS e Newton pode convergir mais rapidamente, embora o esforço computacional de cada etapa seja mais caro.

F (x) = \frac{1}{2} x^{T} A x + d^{T} x + c

$F(x)=\frac{1}{2}x^TAx+d^Tx+c$

\nabla F (x) = A x + d

$\nabla F(x)=Ax+d$

x_{k + 1} = x_{k} - α (A x_{k} + d) = (I - α A) x_{k} - α d .

$x_{k+1}= x_k-\alpha(Ax_k+d) = (I-\alpha A)x_k-\alpha d.$

$I-\alpha A$

α < \frac{2}{λ_{m a x}},

$\alpha<\frac{2}{\lambda_{max}},$

λ_{m a x}

$\lambda_{max}$

A

$A$

A

$A$

A

$A$

No contexto específico das redes neurais, o livro Design de Redes Neurais tem bastante informação sobre métodos de otimização numérica. A discussão acima é uma condensação da seção 9-7.

— Sycorax diz restabelecer Monica
fonte

Ótima resposta! Estou aceitando a resposta de @Dougal, pois acho que fornece uma explicação mais simples.

— Bar

6

f (x) = c + β x + α x^{2}

$f(x)=c+\beta x + \alpha x^2$

\partial^{2} f (x) / \partial x^{2} = 2 α

$\partial^2 f(x)/\partial x^2=2\alpha$

acho = - \frac{β}{2 α}

$\text{guess}=-\frac{\beta}{2\alpha}$

O caso multivariado é muito semelhante, basta usar gradientes para derivadas.

— Aksakal
fonte

2

A @Dougal já deu uma ótima resposta técnica.

A explicação não matemática é que, embora a aproximação linear (ordem 1) forneça um "plano" tangencial a um ponto em uma superfície de erro, a aproximação quadrática (ordem 2) forneça uma superfície que abraça a curvatura da superfície de erro.

Os vídeos neste link fazem um ótimo trabalho de visualização desse conceito. Eles exibem aproximações de ordem 0, ordem 1 e ordem 2 à superfície da função, que apenas intuitivamente verifica o que as outras respostas apresentam matematicamente.

Além disso, um bom post no blog (aplicado às redes neurais) está aqui .

— Zhubarb
fonte