Confusão sobre a regra de Armijo

Eu tenho essa confusão sobre a regra Armijo usada na pesquisa de linha. Eu estava lendo a pesquisa de linha de rastreamento anterior, mas não entendi o que é essa regra Armijo. Alguém pode elaborar qual é a regra de Armijo? A Wikipédia não parece explicar bem. obrigado

optimization

— user34790
fonte

E se na equação a variável x não for um vetor, mas uma matriz? Como a regra do Armijo deve ser atualizada?

— precisa saber é o seguinte

nada muda. você deve simplesmente remodelar sua matriz

em um vetor (coluna)

X_{k}

$X_k$

x_{k}

$x_k$

— GoHokies

Foi aí que fiquei preso. Quando

se torna uma matriz, o valor no lado esquerdo (

) ainda é um escalar. Mas o valor no lado direito não é - em vez disso, é uma matriz (

é um escalar e

é uma matriz.)

x_{k}

$x_k$

f (x_{k} + α p_{k})

$f(x_k+\alpha p_k)$

f (x_{k})

$f(x_k)$

β α \nabla f (x_{k})^{T} p_{k}

$\beta\alpha∇f(x_k)^Tp_k$

— Frank Puk

você precisará trabalhar com um vetor, não uma matriz. assim você remodelar seu

matriz de variáveis de controle (eu denotado pelo

) em um vetor

com

elementos. A direção da pesquisa e o gradiente também serão vetores com elementos

. dessa forma, tanto o RHS quanto o LHS da condição Armijo são escalares e podem ser comparados.

N \times N

$N \times N$

X_{k}

$X_k$

x_{k}

$x_k$

N^{2}

$N^2$

N^{2}

$N^2$

— GoHokies

Respostas:

Depois de obter uma direção de descida para sua função objetiva , você precisa escolher um comprimento de passo "bom". Você não deseja dar um passo muito grande para que a função no seu novo ponto seja maior que o ponto atual. Ao mesmo tempo, você não quer dar um passo pequeno demais, de modo que leva uma eternidade para convergir. $p$ $f(x)$

A condição de Armijo basicamente sugere que um "bom" comprimento do passo é tal que você tem "uma diminuição suficiente" em no seu novo ponto. A condição é matematicamente declarada como onde é uma direção de descida em e . $f$

f (x_{k} + α p_{k}) \leq f (x_{k}) + β α \nabla f (x_{k})^{T} p_{k}

$f(x_k+\alpha p_k)\leq f(x_k)+\beta\alpha\nabla f(x_k)^Tp_k$

p_{k}

$p_k$

x_{k}

$x_k$

β \in (0, 1)

$\beta\in(0,1)$

A intuição por trás disso é que o valor da função no novo ponto deve estar abaixo da "linha tangente" reduzida em na direção de . Veja o livro "Numerical Optimization" de Nocedal & Wright. No capítulo 3, há uma excelente descrição gráfica da condição de diminuição suficiente do armijo. $f(x_k+\alpha p_k)$ $x_k$ $p_k$

— Paulo
fonte

Em vez de pensar nela como uma linha tangente, você também pode pensar nela como a expansão de Taylor de primeira ordem. Neste caso, o

apenas garante que existe um tamanho de passo

β

$\beta$

α

$\alpha$

— Cjordan1

A razão pela qual isso é importante, ou seja, por que é necessário um passo "bom", é que muitos esquemas de otimização convergirão mais lentamente, como Paulo diz, ou talvez não convergam. Portanto, pesquisas de linha - que vêm em várias variedades, o Armijo é apenas o mais popular - podem ser usadas para fornecer propriedades de convergência mais robustas aos algoritmos.

— Cjordan1

Paul: sua explicação está incompleta. Essa desigualdade por si só não garante a diminuição "suficiente". De fato, você pode ter alfa = 0 e ainda satisfazer a desigualdade que escreveu. Uma característica importante é que a regra de Armijo é limitar o tamanho da etapa a zero, o que é feito por outra desigualdade: f (gama * xnovo) -f (x_old)> beta * (gama * xnovo-x_old) ^ T * grad (f (x_old))

f (x) = x^{2}

$f(x) = x^2$

x_{k} = - 1

$x_k = -1$

p_{k} = - 2

$p_k = -2$

α

$\alpha$

f (x_{k} + α p_{k})

$f(x_k + \alpha p_k)$

α = 1 / 2

$\alpha = 1/2$

β > 1 / 2

$\beta > 1/2$

f (x_{k} + 1 / 2 p_{k}) = 0 > 1 - 2 β = f (x_{k}) + β α f^{'} (x_{k}) p_{k}

$f(x_k + 1/2 p_k) = 0 > 1 - 2 \beta = f(x_k) + \beta \alpha f'(x_k) p_k$

β

$\beta$

β > 1 / 2

$\beta > 1/2$

β = 10^{- 4}

$\beta = 10^{-4}$

β

$\beta$

Cinco anos depois, essa pergunta ainda é válida.

Aqui (páginas 16 e 17), você pode encontrar uma ótima explicação, incluindo um algoritmo.

— Bojan Hrnkas
fonte