Nesta resposta, explorarei dois artigos interessantes e relevantes que foram levantados nos comentários. Antes de fazer isso, tentarei formalizar o problema e lançar alguma luz sobre algumas das suposições e definições. Começo com um artigo de 2016 de Lee et al.
Buscamos minimizar uma função não-convexa que é delimitada abaixo. Exigimos que seja duas vezes diferenciável. Usamos um algoritmo de descida de gradiente da forma:f:Rd→R
.xxt + 1= xxt- α ∇ f( xxt)
Além disso, temos o seguinte requisito:
.∥ ∇ f( xx1) - ∇ f( xx2) ∥ ≤ ℓ ∥ xx1- xx2∥ ,para todos xx1, xx2
Ou seja, exigimos que nossa função seja -Lipschitz em sua primeira derivada. Em inglês, isso se traduz na ideia de que nosso gradiente não pode mudar muito rapidamente em qualquer lugar do domínio. Essa suposição garante que podemos escolher um tamanho de etapa para que nunca terminemos com etapas que divergem.ℓ
Lembre-se de que um ponto Diz-se que x é uma sela estrita se ∇ f ( xxx e λ min ( ∇ 2 f ( x∇ f( xx )=0e λ máx ( ∇ 2 f ( xλmin( ∇2f( xx ) ) <0. Se todos os autovalores do Hessiano tiverem o mesmo sinal, o ponto será mínimo (se positivo) ou máximo (negativo). Se houver 0 autovalores de 0, é considerado degenerado e não é uma sela estrita.λmax( ∇2f( xx ) ) >0
O artigo mostra que, com as suposições acima, juntamente com a suposição de que todos os pontos de sela da função são de sela estrita, a descida do gradiente é garantida para convergir ao mínimo.
A prova é bastante técnica, mas a intuição é a seguinte: defina um conjunto , onde xWs( xxs) = { xx : limkgk( xx ) = xxs} é um ponto de sela. Eu não gosto dessa notação. O que eles estão tentando chegar é queWé o conjunto de valores iniciais para o qual o gradiente mapag: R d → R d envia xxxsWg: Rd→ Rd a xxxk . Em termos mais claros, é o conjunto de inicializações aleatórias que acabarão convergindo para uma sela.xxs
O argumento deles baseia-se no teorema do coletor estável. Com as suposições acima e um grupo de matemática esotéricos Eles concluem que o conjunto de deve ser medida de zero, isto é, não há nenhuma probabilidade de inicializar aleatoriamente em um ponto que irá convergir para um ponto de sela. Como sabemos que a descida do gradiente em funções do tipo descrito nas suposições com tamanhos de degraus adequadamente pequenos chegará a um ponto crítico e agora sabemos (quase com certeza) que ele nunca cairá em uma sela, sabemos que converge para um minimizador.Ws
O segundo artigo, mais recente, de Reddi et al. Vou discutir em menos detalhes. Existem várias diferenças. Primeiro, eles não estão mais trabalhando em uma estrutura determinística, optando pela estrutura de aproximação estocástica mais praticamente relevante em uma soma finita (pense em Descida de gradiente estocástico). As principais diferenças são que o tamanho da etapa requer algum cuidado adicional e o gradiente se torna uma variável aleatória. Além disso, relaxam a suposição de que todas as selas são rígidas e procuram um ponto estacionário de segunda ordem. Isto é, um ponto tal que,
∥ ∇ ( f) ∥ ≤ ϵ ,e ,λmin( ∇2f( xx ) ) ≥- ρ ϵ--√
Onde é a constante de Lipschitz para o Hessian. (Ou seja, além do requisito de que nosso gradiente não varie muito rapidamente, agora temos um requisito semelhante em nosso Hessian. Essencialmente, os autores estão procurando por um ponto que pareça um mínimo na primeira e na segunda derivada.r h o
O método pelo qual eles realizam isso é usar uma variante (escolha a sua favorita) de descida de gradiente estocástico na maioria das vezes. Mas onde quer que encontrem um ponto em que , eles usam ummétodo de segunda ordemadequadamente escolhidopara escapar da sela. Eles mostram que, incorporando essas informações de segunda ordem, conforme necessário, elas convergirão para um ponto estacionário de segunda ordem.λmin( ∇2f( xx ) ) ≤0
Tecnicamente, este é um método de gradiente de segunda ordem, que pode ou não se enquadrar nos algoritmos em que você estava interessado.
Esta é uma área de pesquisa muito ativa e deixei de fora muitas contribuições importantes (ex Ge et al. ). Eu também sou novo no tópico, então esta pergunta me proporcionou uma oportunidade de procurar. Fico feliz em continuar a discussão, se houver interesse.
*** Escolhido adequadamente significa aquele que é mostrado para convergir para um ponto estacionário de segunda ordem. Eles usam o método Newton regularizado cúbico de Nesterov e Polyak.