(Editar notas: reorganizei isso depois de surtar demais.)
A literatura sobre descida de coordenadas pode ser um pouco difícil de localizar. Aqui estão algumas razões para isso.
Muitas das propriedades conhecidas dos métodos de coordenadas são capturadas em teoremas gerais para métodos de descida mais gerais. Dois exemplos deste, dadas abaixo, são a convergência rápida sob forte convexidade (preensão para qualquer mais íngreme descida), e a convergência geral destes métodos (usualmente atribuída ao Zoutendijk).eup
Nomear não é padrão. Mesmo o termo "descida mais íngreme" não é padrão. Você pode ter sucesso pesquisando qualquer um dos termos "descida cíclica das coordenadas", "descida das coordenadas", "Gauss-Seidel", "Gauss-Southwell". o uso não é consistente.
A variante cíclica raramente recebe menção especial. Em vez disso, geralmente apenas a melhor escolha única de coordenada é discutida. Mas isso quase sempre fornece a garantia cíclica, embora com um fator extra (número de variáveis): isso ocorre porque a maioria das análises de convergência ocorre limitando mais a melhoria de uma única etapa e você pode ignorar as coordenadas extras. Também parece difícil dizer algo geral sobre o que o cíclico compra, para que as pessoas façam a melhor coordenada e o fator geralmente possa ser verificado.nn
Taxa sob forte convexidade. O caso mais simples é que sua função objetivo é fortemente convexa. Aqui, todas as variantes de descida de gradiente têm a taxa . Isso está comprovado no livro de Boyd & Vandenberghe. A prova primeiro dá o resultado em gradiente descendente, e, em seguida, usa norma equivalência para dar o resultado para geral mais íngreme descida.O ( ln( 1 / ϵ ) )eup
Restrições. Sem forte convexidade, você deve começar a ter um pouco de cuidado. Você não disse nada sobre restrições e, portanto, em geral, o mínimo pode não ser atingível. Vou dizer brevemente sobre o tópico das restrições que a abordagem padrão (com métodos de descida) é projetar em sua restrição, definir cada iteração para manter a viabilidade ou usar barreiras para rolar as restrições em sua função objetivo. No caso do primeiro, não sei como ele funciona com a descida coordenada; no caso deste último, funciona bem com descida coordenada, e essas barreiras podem ser fortemente convexas.
Mais especificamente para métodos de coordenadas, em vez de projetar, muitas pessoas simplesmente fazem com que a atualização de coordenadas mantenha a viabilidade: este é exatamente o caso do algoritmo de Frank-Wolfe e suas variantes (ou seja, usá-lo para resolver SDPs).
Também observarei brevemente que o algoritmo SMO para SVMs pode ser visto como um método de descida de coordenadas, onde você está atualizando duas variáveis ao mesmo tempo e mantendo uma restrição de viabilidade enquanto o faz. A escolha das variáveis é heurística neste método e, portanto, as garantias são realmente apenas as garantias cíclicas. Não tenho certeza se essa conexão aparece na literatura padrão; Aprendi sobre o método SMO com as anotações do curso de Andrew Ng e as achei bastante limpas.
Garantia geral de convergência. O que eu sei nessa configuração mais geral (para descida de coordenadas) é muito mais fraco. Primeiro, há um resultado antigo, devido a Zoutendijk, de que todas essas variantes de gradiente têm convergência garantida; você pode encontrar isso no livro de Nocedal & Wright, e também aparece em alguns dos livros de Bertsekas (no mínimo, a "programação não-linear" possui). Esses resultados são novamente para algo mais geral do que a descida de coordenadas, mas você pode especializá-los para coordenar a descida e obter a parte cíclica multiplicando por .n
Mais especificamente para a descida cíclica de coordenadas, há um artigo de Luo & Tseng intitulado "Na convergência do método de descida de coordenadas para minimização diferenciável convexa". Esses resultados exigem que o menor seja possível. Não há taxas aqui, apenas garantias de convergência, mas esses resultados foram aplicados a algumas configurações mais especializadas para obter taxas; por exemplo, ao impulsionar (no caso especial em que o menor é atingível), Warmuth, Mika, Raetsch e Warmuth ("na convergência da alavancagem") foram capazes de mostrar taxas de .O ( ln( 1 / ϵ ))
Existem alguns resultados mais recentes sobre descida de coordenadas. Já vi coisas no arXiv. Além disso, luo e tseng têm alguns papéis mais recentes. mas este é o material principal.
Mais taxas de convergência no caso especial de reforço. Devido à sua importância, houve outra especialização no caso de reforço. Este é um caso especial bastante grave, pois seu objetivo pode ser escrito que é uma função univariada (convexa) e a é vetores fixos ( é a variável de otimização). Bickel, Ritov e Zakai ("alguma teoria para algoritmos de impulso generalizados") mostraram que você pode obter em geral, e há resultados mais recentes de outras pessoas mostrando . A dificuldade neles é que o infimum não é considerado atingível.∑mi = 1g( ⟨ UmEu, X ⟩ )g( umEu)m1λexp( 1 / ϵ2)O (1 / ϵ)
O problema com atualizações exatas. Além disso, é muito comum que você não tenha uma atualização de coordenada única de formulário fechado. Ou a solução exata pode simplesmente não existir. Felizmente, porém, existem muitos e muitos métodos de pesquisa de linha que obtêm basicamente as mesmas garantias que uma solução exata. Esse material pode ser encontrado em textos de programação não lineares padrão, por exemplo, nos livros Bertsekas ou Nocedal & Wright mencionados acima.
Vis a vis seu segundo parágrafo: quando estes funcionam bem.
Primeiro, muitas das análises acima mencionadas para trabalho em gradiente para descida de coordenadas. Então, por que nem sempre usar descida de coordenadas? A resposta é que, para muitos problemas em que a descida do gradiente é aplicável, você também pode usar os métodos de Newton, para os quais é comprovada uma convergência superior. Não sei como obter a vantagem de Newton com descida coordenada. Além disso, o alto custo dos métodos de Newton pode ser mitigado com as atualizações do Quasinewton (veja, por exemplo, LBFGS).
eu0 0kkkkf que permitem convergência rápida e boa esparsidade (fiel ao seu título).