Intuição por trás do método de direção alternada dos multiplicadores

Ultimamente, tenho lido muitos artigos sobre o ADMM e também tentei resolver vários problemas usando-o, nos quais foi muito eficaz. Ao contrário de outros métodos de otimização, não consigo ter uma boa intuição de como e por que esse método é tão eficaz (é claro, já vi análises de convergência em alguns casos, mas nada que me desse muita informação). Existe alguma intuição por trás do ADMM? Como os primeiros cientistas a usá-lo tiveram essa ideia? Alguma intuição geométrica seria melhor, mas qualquer insight que alguém tenha ajudará.

optimization admm

— olamundo
fonte

Você pode explicar o que é o ADMM?

— Bill Barth

@BillBarth - Claro :) alternada direcção método dos multiplicadores (ver, por exemplo stanford.edu/~boyd/admm.html )

— olamundo

Você pode pelo menos dizer o que é sobre o artigo original que você acha tão incerto?

— Kirill

@ Kirill Apenas um detalhe: o papel de Boyd dificilmente é o original da ADMM. É uma boa referência, mas o algoritmo remonta a Douglas e Rachford (1956) e foi posteriormente desenvolvido e analisado das décadas de 1970 a 1990. Nos últimos anos, houve um reavivamento em grande parte devido à agitação em torno de

ℓ^{1}

$\ell^1$ regularização.

— Jed Brown

L_{1}

$L_{1}$

min_{x, y} F (x) + G (y), s.t A x + B y = c

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad Ax+By = c$

F

$F$

G

$G$

A

$A$

B

$B$

Eu encontrar o seguinte caso especial de , e ilustrativos. Nesse caso, a restrição diz , ou seja, podemos substituir para obter o problema Agora, resolver isso pode ser difícil, enquanto a solução de problemas da forma pode ser fácil. (Você mesmo pode criar exemplos disso, um popular é e ). No ADMM, você começa a partir da "forma " e cria o Lagragian aumentado " $A=I$ $B=-I$ $c=0$ $x - y = 0$

min_{x} F (x) + G (x) .

$\min_x F(x) + G(x).$

min_{x} ρ F (x) + \frac{1}{2} ‖ x - z ‖^{2}

$\min_x \rho F(x) + \tfrac12\|x-z\|^2$

F (x) = λ ‖ x ‖^{1}

$F(x) = \lambda\|x\|^1$

G (x) = \frac{1}{2} ‖ A x - b ‖^{2}

$G(x) = \tfrac12\|Ax-b\|^2$

min_{x, y} F (x) + G (y), s.t x - y = 0

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad x-y=0$

L_{ρ} (x, y, z) = F (x) + G (y) + z^{T} (x - y) + \frac{ρ}{2} ‖ x - y ‖^{2}

$L_\rho(x,y,z) = F(x) + G(y) + z^T(x-y) + \tfrac\rho2\|x-y\|^2$ com o multiplicador de Lagrange . Agora você minimiza alternadamente o Lagragian aumentado nas diferentes direções e , ou seja, itera e atualize o multiplicador de acordo com Isso deve explicar o nome do método de direções alternadas dos multiplicadores .

z

$z$

x

$x$

y

$y$

x^{k + 1} = {a r g m i n}_{x} L_{ρ} (x, y^{k}, z^{k})

$x^{k+1} = \mathrm{argmin}_x\ L_\rho(x,y^k,z^k)$

y^{k + 1} = {a r g m i n}_{y} L_{ρ} (x^{k + 1}, y, z)

$y^{k+1} = \mathrm{argmin}_y\ L_\rho(x^{k+1},y,z)$

z^{k + 1} = z^{k} + ρ (x^{k + 1} - y^{k + 1}) .

$z^{k+1} = z^k + \rho(x^{k+1} - y^{k+1}).$

Analisando estes problemas de minimização para e mais perto, você observar que para cada atualização só precisa resolver um problema da "forma mais simples", por exemplo, para o atualização (negligenciando termos que não dependem de ). $x$ $y$ $x$

x^{k + 1} = {a r g m i n}_{x} F (x) + \frac{ρ}{2} ‖ x - y^{k} + ρ z^{k} ‖^{2}

$x^{k+1} = \mathrm{argmin}_x\ F(x) + \tfrac\rho2\|x - y^k + \rho z^k\|^2$

x

$x$

O ADMM para o problema é derivado de maneira semelhante, mas os problemas intermediários das atualizações ainda são um um pouco difícil, mas pode ser comparativamente simples em comparação com o original. Especialmente no caso de e (ou equivalente , e a restrição ) as atualizações são mais ou menos simples de implementar.

min_{x, y} F (x) + G (y), s.t A x + B y = c

$\min_{x,y}\ F(x) + G(y),\quad\text{s.t}\quad Ax+By = c$

F (x) = λ ‖ x ‖_{1}

$F(x) = \lambda\|x\|_1$

G (x) = \frac{1}{2} ‖ A x - b ‖^{2}

$G(x) = \tfrac12\|Ax-b\|^2$

F (x) = λ ‖ x ‖_{1}

$F(x) = \lambda\|x\|_1$

G (y) = \frac{1}{2} ‖ y ‖^{2}

$G(y) = \tfrac12\|y\|^2$

A x - y = b

$Ax - y = b$

— Dirk
fonte

Agradável! Também é útil mostrar o que acontece em 3 blocos (há casos em que ele funcionará, por exemplo, matrizes correlacionadas).

— Royi 09/12/19