Como Jed Brown mencionou, a conexão entre a descida do gradiente na otimização não-linear e a escalada no tempo dos sistemas dinâmicos é redescoberta com alguma frequência (compreensivelmente, uma vez que é uma conexão muito satisfatória com a mente matemática, uma vez que vincula dois campos aparentemente diferentes). No entanto, raramente acaba sendo uma conexão útil , especialmente no contexto que você descreve.
Em problemas inversos, as pessoas estão interessadas em resolver a equação operador (mal-posto) com não na faixa de . (Seu problema de controle ideal pode ser visto como uma instância dele com e .) Diversas estratégias de regularização (como Tikhonov ou Landweber) podem ser interpretadas como um único pseudo-tempo passo de uma determinada classe. A idéia é, então, usar a interpretação do parâmetro de regularização como um comprimento de etapa para obter algumas regras de escolha (adaptativas a posteriori) para o parâmetro - um problema fundamental em problemas inversos - e possivelmente fazer várias etapas pseudo-temporais para abordar a solução verdadeira e não regulamentada (semelhante ày δ F F = A - 1 y δ = y 0F( u ) = yδyδFF= A- 1yδ= y0 0continuação numérica ). Isso às vezes é chamado de regularização contínua e geralmente é discutido no contexto de métodos de conjunto de níveis; veja, por exemplo, o capítulo 6.1 de Kaltenbacher, Scherzer, Neubauer: métodos de regularização iterativa para problemas não-lineares de posicionamento incorreto (de Gruyter, 2008).
Um segundo contexto em que essa idéia surge repetidamente é a otimização não-linear: se você observar um passo de descida de gradiente para ,
é possível interpretar isso como uma etapa de Euler direta para o sistema dinâmico
Como Jed Brown apontou, isso à primeira vista produz apenas a observação não muito surpreendente de que esse método converge, desde que os passos do pseudo-tempo sejam pequenos o suficiente. A parte interessante vem quando você olha para o sistema dinâmico e se pergunta quais propriedades a solução contínua do chamado fluxo gradientex k + 1 = x k - γ k ∇ f ( x k ) , ˙ x ( t ) = - ∇ f ( x ( t ) ) ,minxf( X )
xk + 1= xk- γk∇f( xk) ,
x˙( t ) = - ∇ f( x ( t ) ) ,x ( 0 ) = x0 0.
γkx ( t )possui (ou deveria ter), independentemente da descida do gradiente, e se isso pode não levar a métodos de escalonamento de tempo mais apropriados (e, portanto, otimização) do que o Euler padrão. Alguns exemplos em cima da minha cabeça:
Existe um espaço funcional natural no qual o fluxo de gradiente vive? Nesse caso, sua etapa de gradiente deve ser realizada no mesmo espaço (ou seja, a discretização deve estar em conformidade). Isso leva, por exemplo, ao cálculo das representações de Riesz do gradiente em relação a diferentes produtos internos (às vezes chamados de gradientes de Sobolev ) e, na prática, a iterações pré-condicionadas que convergem muito mais rapidamente.
Talvez deva pertencer não a um espaço vetorial, mas a uma variedade (por exemplo, matrizes definidas positivas simétricas), ou o fluxo gradiente deve conservar uma certa norma de . Nesse caso, você pode tentar aplicar esquemas de escalonamento que preservam a estrutura (por exemplo, envolvendo um retrocesso em relação a um grupo de Lie apropriado ou a um integrador geométrico).xx
Se não for diferenciável, mas convexo, a etapa de Euler direta corresponde a um método de descida de subgradiente que pode ser muito lento devido a restrições de tamanho de etapa. Por outro lado, um passo implícito de Euler corresponde a um método de ponto proximal , para o qual essas restrições não se aplicam (e que assim se tornaram muito populares no processo de imagem, por exemplo).f
De maneira semelhante, esses métodos podem ser significativamente acelerados por etapas de extrapolação. Uma maneira de motivá-las é observar que os métodos padrão de primeira ordem sofrem com a necessidade de dar muitos pequenos passos próximos aos minimizadores, porque as direções do gradiente "oscilam" (pense na ilustração padrão para saber por que os gradientes conjugados superam a descida mais íngreme). Para remediar isso, pode-se "amortecer" a iteração não resolvendo um sistema dinâmico de primeira ordem, mas um sistema de segunda ordem amortecido :
para escolhido adequadamente . Com a discretização adequada, isso leva a uma iteração (conhecida como método de bola pesada de Polyak ) da forma
uma1 1x¨( t ) + a2x˙( t ) = - ∇ f( x ( t ) )
uma1 1, um2xk + 1= xk- γk∇ f( xk) + αk( xk- xk - 1)
(com dependendo de ) Idéias semelhantes existem para métodos de pontos proximais, veja, por exemplo, o artigo http://arxiv.org/pdf/1403.3522.pdf de Dirk Lorenz e Thomas Pock.γk, αkuma1 1, um2
(Devo acrescentar que, na minha opinião, na maioria desses casos a interpretação como um sistema dinâmico não era estritamente necessária para a derivação ou a prova de convergência do algoritmo; alguém poderia argumentar que idéias como "implícito vs. explícito" ou derivado de Lie são realmente mais fundamentais do que os sistemas dinâmicos ou os métodos de descida de gradiente. Ainda assim, nunca é demais ter outro ponto de vista para analisar um problema.)
Edição: Acabei de encontrar um excelente exemplo do segundo contexto, em que a interpretação ODE é usada para deduzir propriedades do método extragradiente de Nesterov e sugerir melhorias:
http://arxiv.org/pdf/1503.01243.pdf
(Observe que isso também é um exemplo do argumento de Jed Brown, no qual os autores redescobrem essencialmente o ponto 4 acima, sem aparentemente conhecer o algoritmo de Polyak.)
EDIÇÃO 2: E como uma indicação de quão longe você pode levar isso, consulte a página 5 de http://arxiv.org/pdf/1509.03616v1.pdf .