Programação linear com restrições de matriz

visão global

Convém tentar uma variante do método de multiplicadores de direções alternadas (ADMM), que foi encontrado para convergir surpreendentemente rapidamente para problemas do tipo laço. A estratégia é formular o problema com um Lagrangiano aumentado e, em seguida, aumentar gradualmente o problema duplo. É especialmente agradável para este particular problema regularizada porque a parte nonsmooth de cada iteração do método tem uma solução exata, você pode simplesmente avaliar elemento por elemento, enquanto que a parte lisa envolve a solução de um sistema linear. $l_1$ $l^1$

Neste post nós

derivar uma formulação geral do ADMM para uma generalização do seu problema,
derivar os subproblemas para cada iteração do ADMM e especializá-los para sua situação e, em seguida,
investigar o sistema linear resultante que necessita de ser resolvido cada iteração, e desenvolver um agente de resolução rápida (ou pré-condicionador) baseado em precomputing as decomposições de valores próprios (ou aproximações baixa classe dos mesmos) para e . $M^TM$ $YY^T$
resumir com algumas observações finais

A maioria das grandes idéias aqui são abordadas no excelente artigo de revisão a seguir,

Boyd, Stephen, et al. "Otimização distribuída e aprendizado estatístico através do método de direção alternada dos multiplicadores". Foundations and Trends® em Machine Learning 3.1 (2011): 1-122. http://www.stanford.edu/~boyd/papers/pdf/admm_distr_stats.pdf

Antes de entrar em detalhes, quero observar que esta é uma resposta de método / algoritmo e não uma resposta de código existente prática - se você quiser usar esse método, precisará rolar sua própria implementação.

Formulação ADMM

Em geral, suponha que você queira resolver

\begin{aligned} min_{x} & \sum_{i} | x_{i} | \\ s.t. & A x = b \end{aligned} .

$\begin{array}{rl} \min_{x} & \sum_{i} |x_i|\\ \textrm{s.t.} & Ax = b \end{array}.$

O problema no post original se enquadra nessa categoria após a vetorização apropriada. (isso é apenas em princípio - veremos que a vetorização não precisa ser realizada na prática)

Você poderia resolver o problema equivalente, que possui Lagrangiano

\begin{aligned} min_{x, z} & \sum_{i} | x_{i} | + \frac{α}{2} | | x - z | |^{2} + \frac{β}{2} | | A z - b | |^{2} \\ s.t. & A z = b \\ & & x = z, \end{aligned}

$\begin{array}{rl} \min_{x,z} & \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 \\ \textrm{s.t.} & Az = b \\ \textrm{&} & x = z, \end{array}$

\begin{aligned} L (x, z, λ, γ) = & \sum_{Eu} | x_{Eu} | + \frac{α}{2} | | x - z | |^{2} + \frac{β}{2} | | UMA z - b | |^{2} + λ^{T} (UMA z - b) + γ^{T} (x - z) \\ = & \sum_{Eu} | x_{Eu} | + \frac{α}{2} | | x - z + \frac{1 1}{α} γ | |^{2} + \frac{β}{2} | | UMA z - b + \frac{1 1}{β} λ | |^{2} \\ + \frac{α}{2} | | \frac{1 1}{α} γ | |^{2} + \frac{β}{2} | | \frac{1 1}{β} λ | |^{2} . \end{aligned}

$\begin{align} L(x,z,\lambda,\gamma) =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 + \lambda^T(Az-b) + \gamma^T(x-z) \\ =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2 \\ &+ \frac{\alpha}{2}||\frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||\frac{1}{\beta}\lambda||^2. \end{align}$

O método de direção alternada dos multiplicadores resolve o problema duplo, via subida gradiente nas variáveis duplas, exceto com projeções alternadas inexatas nos subproblemas duplos. Ou seja, faz-se a iteração

max_{λ, γ} min_{x, z} eu (x, z, λ, γ),

$\max_{\lambda,\gamma} \min_{x,z} L(x,z,\lambda,\gamma),$

\begin{aligned} x^{k + 1 1} & = {uma r g m Eu n}_{x} eu (x, z^{k}, λ^{k}, γ^{k}) \\ z^{k + 1 1} & = {uma r g m Eu n}_{z} eu (x^{k + 1 1}, z, λ^{k}, γ^{k}) \\ γ^{k + 1 1} & = γ^{k} + α (x^{k + 1 1} - z^{k + 1 1}) \\ λ^{k + 1 1} & = λ^{k} + β (UMA z^{k + 1 1} - b) . \end{aligned}

$\begin{align} x^{k+1} &= \mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) \\ z^{k+1} &= \mathrm{argmin}_z L(x^{k+1},z,\lambda^k,\gamma^k) \\ \gamma^{k+1} &= \gamma^k + \alpha(x^{k+1}-z^{k+1}) \\ \lambda^{k+1} &= \lambda^k + \beta(Az^{k+1}-b). \end{align}$

Sob certas condições moderadas nos parâmetros e (explicados no artigo de Boyd & Parikh acima), o método ADMM convergirá para a verdadeira solução. A taxa de convergência é linear, pois é no centro um método de subida de gradiente. Frequentemente, pode ser acelerado para ser super-linear 1) alterando os parâmetros e medida que avança com base nas heurísticas, ou 2) usando a aceleração de Nesterov. Para obter notas sobre a alteração dos parâmetros de penalidade, consulte o documento de pesquisa de Boyd e, sobre o uso da aceleração de Nesterov com o ADMM, consulte o documento a seguir, $\alpha$ $\beta$ $\alpha$ $\beta$

Goldstein, Tom, Brendan O'Donoghue e Simon Setzer. "Métodos rápidos de otimização de direção alternada." CAM report (2012): 12-35. ftp://ftp.math.ucla.edu/pub/camreport/cam12-35.pdf

No entanto, mesmo que a taxa de convergência geral seja apenas linear, para problemas de foi observado que o método encontra o padrão de esparsidade muito rapidamente e converge mais lentamente nos valores exatos. Como encontrar o padrão de escarsidade é a parte mais difícil, isso é muito fortuito! As razões exatas pelas quais parecem ser uma área da pesquisa atual. Todo mundo vê o padrão de dispersão convergir rapidamente, mas ninguém parece saber exatamente por que isso acontece. Há um tempo, perguntei a Boyd e Parikh sobre isso por e-mail, e Parikh achou que isso poderia ser explicado pela interpretação do método em um contexto de sistemas de controle. Outra explicação heurística do fenômeno é encontrada no apêndice do artigo a seguir, $l^1$

Goldstein, Tom e Stanley Osher. "O método Bregman dividido para problemas regularizados por L1." Jornal SIAM em Ciências da Imagem 2.2 (2009): 323-343. ftp://ftp.math.ucla.edu/pub/camreport/cam08-29.pdf

É claro que agora a dificuldade está em resolver os subproblemas de atualização e para sua situação específica. Como o Lagrangiano é quadrático em , o subproblema de atualização simplesmente exige a solução de um sistema linear. O subproblema parece mais difícil, pois é indiferenciável, mas acontece que existe uma fórmula exata para a solução que pode ser aplicada elemento a elemento! Agora, discutimos esses subproblemas com mais detalhes e os especificamos para o problema na postagem original. $x$ $z$ $z$ $z$ $x$

Configuração para o subproblema de atualização (sistema linear) $z$

Para a atualização , temos $z$

{uma r g m Eu n}_{z} eu (x_{k}, z, λ_{k}, γ_{k}) = {uma r g m Eu n}_{z} \frac{α}{2} | | x - z + \frac{1 1}{α} γ | |^{2} + \frac{β}{2} | | UMA z - b + \frac{1 1}{β} λ | |^{2} .

$\mathrm{argmin}_z L(x_k,z,\lambda_k,\gamma_k) = \mathrm{argmin}_z \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2.$

Especializado no problema, isso se torna:

\begin{aligned} {uma r g m Eu n}_{Z_{J}, Z_{B}} & \frac{α}{2} | | J^{k + 1 1} - Z_{J} + \frac{1 1}{α} Γ_{J} | |_{F r o}^{2} + \frac{α}{2} | | B^{k + 1 1} - Z_{B} + \frac{1 1}{α} Γ_{B} | |_{F r o}^{2} \\ + \frac{β}{2} | | M Z_{J} + Z_{B} Y - X + \frac{1 1}{α} Λ | |_{F r o}^{2}, \end{aligned}

$\begin{align} \mathrm{argmin}_{Z_J,Z_B} &\frac{\alpha}{2}||J^{k+1}-Z_J + \frac{1}{\alpha}\Gamma_J||_{Fro}^2 + \frac{\alpha}{2}||B^{k+1}-Z_B + \frac{1}{\alpha}\Gamma_B||_{Fro}^2 \\ &+\frac{\beta}{2}||MZ_J + Z_BY - X + \frac{1}{\alpha}\Lambda||^2_{Fro}, \end{align}$

onde denota a norma Frobenius (elementwise ). Este é um problema de minimização quadrático, em que as condições de otimização de primeira ordem podem ser encontradas pegando derivadas parciais do objetivo em relação a e e definindo-as como zero. Isto é, $||\cdot||Fro$ $l_2$ $Z_J$ $Z_B$

\begin{aligned} 0 0 & = - \frac{α}{2} (J^{k + 1 1} - Z_{J} + \frac{1 1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{B} Y - X + \frac{1 1}{β} Λ), \\ 0 0 & = - \frac{α}{2} (B^{k + 1 1} - Z_{B} + \frac{1 1}{α} Γ_{B}) + \frac{β}{2} (M Z_{J} + Z_{B} Y - X + \frac{1 1}{β} Λ) Y^{T} . \end{aligned}

$\begin{align} 0 &= -\frac{\alpha}{2}(J^{k+1} - Z_J + \frac{1}{\alpha}\Gamma_J) + \frac{\beta}{2}M^T(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda), \\ 0 &= -\frac{\alpha}{2}(B^{k+1} - Z_B + \frac{1}{\alpha}\Gamma_B) + \frac{\beta}{2}(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda)Y^T. \end{align}$

Como observado nos comentários do pôster original Justin Solomon, este sistema para é simétrico, de modo que o gradiente conjugado é um método ideal sem matriz. Uma seção posterior discute esse sistema e como resolvê-lo / pré-condicioná-lo com mais detalhes. $Z_J,Z_B$

Resolução do subproblema update (solução de limiar analítico) $x$

Agora, voltamos ao subproble , $x$

{uma r g m Eu n}_{x} eu (x, z^{k}, λ^{k}, γ^{k}) = {uma r g m Eu n}_{x} \sum_{Eu} | x_{Eu} | + \frac{α}{2} | | x - z^{k} + \frac{1 1}{α} γ^{k} | |^{2}

$\mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) = \mathrm{argmin}_x \sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2$

A primeira coisa a ver é que a soma pode ser dividida elemento por elemento,

\sum_{Eu} | x_{Eu} | + \frac{α}{2} | | x - z^{k} + \frac{1 1}{α} γ^{k} | |^{2} = \sum_{Eu} | x_{Eu} | + \frac{α}{2} \sum_{Eu} (x_{Eu} - z_{Eu}^{k} + \frac{1 1}{α} γ_{Eu}^{k})^{2},

$\sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2 = \sum_{i} |x_i| + \frac{\alpha}{2}\sum_i (x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2,$

Portanto, podemos resolver o problema do problema de otimização por elemento em paralelo, produzindo

x_{Eu}^{k + 1 1} = {uma r g m Eu n}_{x_{Eu}} | x_{Eu} | + \frac{α}{2} (x_{Eu} - z_{Eu}^{k} + \frac{1 1}{α} γ_{Eu}^{k})^{2} .

$x_i^{k+1} = \mathrm{argmin}_{x_i} |x_i| + \frac{\alpha}{2}(x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2.$

A forma geral desta equação é,

min_{s} | s | + \frac{α}{2} (s - t)^{2} .

$\min_s |s| + \frac{\alpha}{2}(s-t)^2.$

A função de valor absoluto está tentando puxar o ponto ótimo em direção a , enquanto o termo quadrático está tentando puxar o ponto ideal em direção a . portanto, a verdadeira solução está em algum lugar do segmento entre os dois, com o aumento de tendendo a puxar o ponto ideal em direção a diminuindo puxando o ponto ideal em direção a . $s=0$ $s=t$ $[0,t)$ $\alpha$ $t$ $\alpha$ $0$

Esta é uma função convexa, mas não é diferenciável em zero. A condição para um ponto de minimização é que a subderivada do objetivo nesse ponto contenha zero. O termo quadrático tem derivada e a função de valor absoluto tem derivada para , subderivada com valor definido como o intervalo quando e derivada para . Assim, obtemos o subderivativo para a função objetivo geral, $\alpha(s-t)$ $-1$ $s < 0$ $[-1,1]$ $s=0$ $1$ $s > 0$

\partial_{s} (| s | + \frac{α}{2} (s - t)^{2}) = {\begin{cases} 1 + α (s - t) & s > 0 \\ [- 1, 1] + α t, & s = 0, \\ - 1 + α (s - t), & s < 0. \end{cases}

$\partial_s \left(|s| + \frac{\alpha}{2}(s-t)^2\right) = \begin{cases} 1 + \alpha (s-t)\, & s > 0 \\ [-1,1] + \alpha t, & s = 0, \\ -1 + \alpha (s-t), & s < 0. \end{cases}$

A partir disso, vemos que a subderivada do objetivo em contém se e somente se ; nesse caso, é o minimizador. Por outro lado, se não for o minimizador, podemos definir a derivada de valor único igual a zero e resolver o minimizador. Fazendo isso, $s=0$ $0$ $|t| \le \frac{1}{\alpha}$ $s=0$ $s=0$

{a r g m i n}_{s} | s | + \frac{α}{2} (s - t)^{2} = {\begin{cases} t - \frac{1}{α}, & t > \frac{1}{α}, \\ 0, & | t | \leq \frac{1}{α}, \\ t + \frac{1}{α}, & t < - \frac{1}{α} \end{cases}

$\mathrm{argmin}_s |s| + \frac{\alpha}{2}(s-t)^2 = \begin{cases} t - \frac{1}{\alpha}, & t > \frac{1}{\alpha}, \\ 0, & |t| \le \frac{1}{\alpha}, \\ t + \frac{1}{\alpha}, & t < -\frac{1}{\alpha} \end{cases}$

Especializando esse resultado novamente no problema real que estamos tentando resolver na pergunta original, onde produz, A atualização para é simplesmente $t = Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k$

J_{Eu j}^{k + 1 1} = {\begin{cases} Z_{Eu j}^{k} - \frac{1 1}{α} Γ_{Eu j}^{k} - \frac{1 1}{α}, & Z_{Eu j}^{k} - \frac{1 1}{α} Γ_{Eu j}^{k} > \frac{1 1}{α}, \\ 0 0, & | Z_{Eu j}^{k} - \frac{1 1}{α} Γ_{Eu j}^{k} | \leq \frac{1 1}{α}, \\ Z_{Eu j}^{k} - \frac{1 1}{α} Γ_{Eu j}^{k} + \frac{1 1}{α}, & Z_{Eu j}^{k} - \frac{1 1}{α} Γ_{Eu j}^{k} < - \frac{1 1}{α} . \end{cases}

$J_{ij}^{k+1} = \begin{cases} Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k - \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k > \frac{1}{\alpha}, \\ 0, & |Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k| \le \frac{1}{\alpha}, \\ Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k + \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k < -\frac{1}{\alpha}. \end{cases}$

B

$B$

B^{k + 1 1} = Z_{B} - \frac{1 1}{α} Γ_{B},

$B^{k+1} = Z_B - \frac{1}{\alpha}\Gamma_B,$

como observado pelo pôster original Justin Solomon nos comentários. No geral, fazer a atualização para exige apenas um loop pelas entradas de suas matrizes e avaliação das fórmulas acima para cada entrada. $J,B$

Complemento Schur para o sistema $Z_J,Z_B$

A etapa mais cara da iteração é resolver o sistema,

\begin{aligned} 0 0 & = - \frac{α}{2} (J^{k + 1 1} - Z_{J} + \frac{1 1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{B} Y - X + \frac{1 1}{β} Λ), \\ 0 0 & = - \frac{α}{2} (B^{k + 1 1} - Z_{B} + \frac{1 1}{α} Γ_{B}) + \frac{β}{2} (M Z_{J} + Z_{B} Y - X + \frac{1 1}{β} Λ) Y^{T} . \end{aligned}

Para esse fim, vale a pena algum esforço para construir um bom solucionador / pré-condicionador para esse sistema. Nesta seção, fazemos isso vetorizando , formando um complemento Schur , fazendo algumas manipulações de produtos Krnoecker e depois removendo a vetorização. O sistema de complemento Schur resultante é uma equação de Sylvester ligeiramente modificada .

No que segue, as seguintes identidades sobre vetorização e produtos Kronecker são absolutamente essenciais:

$\mathrm{vec}(ABC) = (C^T \otimes A)\mathrm{vec}(B),$
$(A \otimes B)(C \otimes D) = AC \otimes BD$ ,
$(A \otimes B)^{-1} = A^{-1} \otimes B^{-1}$ e
$(A \otimes B)^T = A^T \otimes B^T$ .

Essas identidades são válidas sempre que os tamanhos e a inversibilidade da matriz são tais que cada lado da equação é uma expressão válida.

A forma vetorizada do sistema é,

(α I + β [\begin{matrix} I \otimes M^{T} M & (Y \otimes M)^{T} \\ Y \otimes M & Y Y^{T} \otimes I \end{matrix}]) [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (α J + β M^{T} X + Γ_{J} - M^{T} Λ) \\ v e c (α B + β X Y^{T} + Γ_{B} - Λ Y^{T}) \end{matrix}],

$\left(\alpha I +\beta\begin{bmatrix}I \otimes M^TM & (Y \otimes M)^T \\ Y \otimes M & YY^T \otimes I\end{bmatrix}\right)\begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(\alpha J + \beta M^TX + \Gamma_J - M^T\Lambda) \\ \mathrm{vec}(\alpha B + \beta XY^T + \Gamma_B - \Lambda Y^T)\end{bmatrix},$

ou,

[\begin{matrix} I \otimes (α I + β M^{T} M) & β (Y \otimes M)^{T} \\ β Y \otimes M & (α I + β Y Y^{T}) \otimes I \end{matrix}] [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (F) \\ v e c (G) \end{matrix}],

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ \beta Y \otimes M & (\alpha I + \beta YY^T) \otimes I\end{bmatrix} \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G)\end{bmatrix},$

onde e são notação condensada para o lado direito. Agora realizamos a eliminação de bloco gaussiano / complemento de Schur para eliminar o bloco inferior esquerdo da matriz, no processo de condensação dos produtos Kronecker. Isto é, $F$ $G$

[\begin{matrix} I \otimes (α I + β M^{T} M) & β (Y \otimes M)^{T} \\ 0 & (α I + β Y Y^{T}) \otimes Eu - β^{2} Y Y^{T} \otimes M (α Eu + β M^{T} M)^{- 1 1} M^{T} \end{matrix}] \dots \cdot [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (F) \\ v e c (G) - β Y \otimes M (α Eu + β M^{T} M)^{- 1 1} v e c (F) \end{matrix}] .

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ 0 & (\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T\end{bmatrix} \dots \\ \cdot \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G) - \beta Y \otimes M(\alpha I + \beta M^TM)^{-1}\mathrm{vec}(F)\end{bmatrix}.$

Unvectorizing, as duas equações que temos que resolver em sequência são,

$Z_{B} (α Eu + β Y Y^{T}) - (β M (α Eu + β M^{T} M)^{- 1 1} M^{T}) Z_{B} (β Y Y^{T}) \dots = G - β M (α Eu + β M^{T} M)^{- 1 1} F Y^{T}$ $Z_B (\alpha I + \beta YY^T) - (\beta M (\alpha I + \beta M^TM)^{-1} M^T)Z_B(\beta YY^T) \dots \\ = G - \beta M (\alpha I + \beta M^TM)^{-1} F Y^T$
$(α Eu + β M^{T} M) Z_{J} = F - β M^{T} Z_{B} Y .$ $(\alpha I + \beta M^TM) Z_J = F - \beta M^T Z_B Y.$

Solução do sistema de complemento de Schur quando são quadrados, altos $Y,M$

Nesta seção, resolvemos o sistema de complemento Schur para (equação 1. acima) usando SVDs pré-computados completos das matrizes e aplicando uma versão modificada do algoritmo Bartels-Stewart para o Sylvester equação. O algoritmo é ligeiramente modificado a partir da versão padrão para contabilizar o extra no segundo termo, o que a torna não exatamente a equação de Sylvester. Uma vez que é encontrado através da primeira equação, pode ser encontrado facilmente na segunda equação. A segunda equação é trivial para resolver através de qualquer método que você gosta. $Z_B$ $YY^T, MM^T, M^TM$ $\beta YY^T$ $Z_B$ $Z_J$

Esse método requer um custo inicial para pré-calcular dois SVDs completos antes do início do processo ADMM, mas é rápido para aplicar nas iterações reais do ADMM. Como o método lida com SVDs completos das matrizes de restrição, é apropriado quando elas estão próximas da classificação quadrada e alta. Um método mais complicado usando SVDs de baixa classificação também é possível, mas é apresentado em uma seção posterior.

O método se desenvolve da seguinte maneira. Deixe denotam precomputed decomposições completos valor singular, e condensar o lado direito para ser . Então a primeira equação se torna: Multiplicando pelos fatores ortogonais para limpar a esquerda e a direita e definindo um novo desconhecido temporário , isso se torna ainda mais

Q D Q^{T} = Y Y^{T}, W Σ W^{T} = M M^{T}, V T V^{T} = M^{T} M

$Q D Q^T = YY^T, \\ W\Sigma W^T = MM^T, \\ VTV^T = M^TM$

H

$H$

Z_{B} Q (α Eu + D) Q^{T} - W β Σ (α Eu + Σ)^{- 1 1} Σ W^{T} Z_{B} Q D Q^{T} = H .

$Z_B Q (\alpha I + D) Q^T - W \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma W^T Z_B Q D Q^T = H.$

A = W^{T} Z_{B} Q

$A = W^T Z_B Q$

UMA (α Eu + D) - β Σ (α Eu + Σ)^{- 1 1} Σ UMA D = W H Q^{T} .

$A (\alpha I + D) - \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma A D = W H Q^T.$

Agora podemos encontrar resolvendo o sistema diagonal , $A$

((α Eu + D) \otimes Eu + D \otimes β Σ (α Eu + Σ)^{- 1 1} Σ) v e c (UMA) = v e c (W H Q^{T}) .

$\left((\alpha I + D) \otimes I + D \otimes \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma \right)\mathrm{vec}(A) = \mathrm{vec}(W H Q^T).$

Tendo encontrado , calculamos , e sabendo que resolvemos a segunda equação acima para , o que é trivial, pois já temos a decomposição de autovalores para . $A$ $Z_B = W A Q^T$ $Z_B$ $Z_J$ $M^TM$

O custo inicial é computar duas decomposições positivas e simétricas de valores próprios positivos de e e, em seguida, o custo por iteração para uma solução completa é dominado por um punhado de multiplicações matriz-matriz, que estão na mesma ordem de magnitude como fazer 1 subiteração de CG. Se as decomposições iniciais de autovalores forem muito caras, elas poderão ser computadas inexatamente, por exemplo, encerrando a iteração de Lanczos mais cedo e mantendo os maiores autovetores. Em seguida, o método pode ser usado como um bom pré-condicionador para CG, em vez de um solucionador direto. $M^TM$ $YY^T$

Método da solução quando são muito retangulares ou têm uma aproximação de classificação baixa $M,Y$

Agora voltamos nossa atenção para resolver ou pré-condicionar o quando a) as matrizes de entrada são muito retangulares - o que significa que elas têm muito mais linhas do que colunas ou vice-versa - ou b) elas têm uma aproximação de classificação baixa. A derivação abaixo envolve o uso extensivo da fórmula de Woodbury, complemento de Schur e outras manipulações semelhantes. $Z_J,Z_B$ $M,Y$

Começamos com nosso sistema de complemento Schur,

(α Eu + β Y Y^{T}) \otimes Eu - β^{2} Y Y^{T} \otimes M (α Eu + β M^{T} M)^{- 1 1} M^{T} .

$(\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T.$

Algumas manipulações transformam esse sistema em uma forma mais simétrica,

(α Eu + β Eu \otimes M M^{T} + β Y Y^{T} \otimes Eu) v e c (Z_{B}) = (Eu \otimes (Eu + \frac{β}{α} M M^{T})) v e c (H) .

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)\mathrm{vec}(Z_B) = \left(I \otimes (I + \frac{\beta}{\alpha}MM^T)\right)\mathrm{vec}(H).$

Agora trazemos as aproximações de baixo escalão. Seja as SVDs reduzidas ou as aproximações de classificação baixa de e ( é um espaço reservado e não é usava). Substituindo-os em nosso sistema, obtém-se a seguinte matriz inversa que desejamos aplicar

Q D^{1 1 / 2} Q_{2}^{T} = Y W Σ^{1 1 / 2} V^{T} = M

$Q D^{1/2} Q_2^T = Y \\ W \Sigma^{1/2} V^T = M$

Y

$Y$

M

$M$

Q_{2}

$Q_2$

(α Eu + β Eu \otimes W Σ W^{T} + β Y Y^{T} \otimes Eu)^{- 1 1} .

$(\alpha I + \beta I \otimes W \Sigma W^T + \beta YY^T \otimes I)^{-1}.$

Como a matriz com a qual invertermos é uma atualização de baixo nível para a identidade, a estratégia lógica é tentar usar a fórmula de Woodbury,

(UMA + você C {você}^{T})^{- 1 1} = {UMA}^{- 1 1} - {UMA}^{- 1 1} você (C^{- 1 1} + {você}^{T} {UMA}^{- 1 1} você)^{- 1 1} {você}^{T} {UMA}^{- 1 1} .

$(A + UCU^T)^{-1} = A^{-1} - A^{-1}U(C^{-1}+U^TA^{-1}U)^{-1}U^TA^{-1}.$

No entanto, alguns cuidados são necessários, pois as peças de baixo escalão e não são ortogonais. Portanto, para aplicar a fórmula de Woodbury, coletamos as atualizações de baixa classificação em uma única grande atualização. Faça isso e aplicando a fórmula de Woodbury produz, $I \otimes W$ $Y \otimes I$

{(\frac{1 1}{α} Eu + β [\begin{matrix} Eu \otimes W & Q \otimes Eu \end{matrix}] [\begin{matrix} Eu \otimes Σ \\ D \otimes Y \end{matrix}] [\begin{matrix} Eu \otimes Σ^{T} \\ Q^{T} \otimes Eu \end{matrix}])}^{- 1 1} = α Eu - \frac{β}{α^{2}} [\begin{matrix} Eu \otimes W & Q \otimes Eu \end{matrix}] {[\begin{matrix} Eu \otimes (Σ^{- 1 1} + \frac{β}{α} Eu) & \frac{β}{α} Q \otimes W^{T} \\ \frac{β}{α} Q^{T} \otimes W & (D^{- 1 1} + \frac{β}{α} Eu) \otimes Y \end{matrix}]}^{- 1 1} [\begin{matrix} Eu \otimes Σ^{T} \\ Q^{T} \otimes Eu \end{matrix}] .

$\left(\frac{1}{\alpha} I + \beta \begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes \Sigma & \\ & D \otimes Y\end{bmatrix}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}\right)^{-1} \\ = \alpha I - \frac{\beta}{\alpha^2}\begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes (\Sigma^{-1}+\frac{\beta}{\alpha}I) & \frac{\beta}{\alpha}Q \otimes W^T\\ \frac{\beta}{\alpha}Q^T\otimes W & (D^{-1} + \frac{\beta}{\alpha}I) \otimes Y\end{bmatrix}^{-1}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}.$

O núcleo inverso pode ser calculado pela fórmula inversa 2x2 em blocos,

{[\begin{matrix} UMA & B \\ B^{T} & C \end{matrix}]}^{- 1 1} = [\begin{matrix} (UMA - B C^{- 1 1} B^{T})^{- 1 1} & - {UMA}^{- 1 1} B (C - B^{T} {UMA}^{- 1 1} B)^{- 1 1} \\ - C^{- 1 1} B^{T} (UMA - B C^{- 1 1} B^{T})^{- 1 1} & (C - B^{T} {UMA}^{- 1 1} B)^{- 1 1} \end{matrix}] .

$\begin{bmatrix}A & B \\ B^T & C\end{bmatrix}^{-1} = \begin{bmatrix}(A-BC^{-1}B^T)^{-1} & -A^{-1}B(C-B^TA^{-1}B)^{-1} \\ -C^{-1}B^T(A-BC^{-1}B^T)^{-1} & (C-B^TA^{-1}B)^{-1}\end{bmatrix}.$

Esta postagem já é longa o suficiente, então pouparei os longos detalhes do cálculo, mas o resultado final é que, ao conectar as submatrizes necessárias ao inverso em blocos e multiplicar tudo, gera a seguinte forma explícita para o inverso geral

(α Eu + β Eu \otimes M M^{T} + β Y Y^{T} \otimes Eu)^{- 1 1} = \frac{1 1}{α} Eu - \frac{β}{α^{2}} (t_{11} + s_{11} + t_{12} + s_{12} + t_{21} + s_{21} + t_{22} + s_{22}),

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)^{-1} = \frac{1}{\alpha} I - \frac{\beta}{\alpha^2}(t_{11} + s_{11} + t_{12} + s_{12} + t_{21} + s_{21} + t_{22} + s_{22}),$

onde

\begin{aligned} t_{11} & = \frac{α}{β} Eu \otimes W {eu}^{- 1 1} W^{T} \\ s_{11} & = (Q \otimes W {eu}^{- 1 1}) D_{11} (Q^{T} \otimes {eu}^{- 1 1} W^{T}) \\ t_{12} & = - \frac{α}{β} Q h^{- 1 1} Q^{T} \otimes W {eu}^{- 1 1} W^{T} \\ s_{12} & = - (Q h^{- 1 1} \otimes W {eu}^{- 1 1}) D_{22} (h^{- 1 1} Q^{T} \otimes W^{T}) \\ t_{21} & = t_{12} \\ s_{21} & = - (Q h^{- 1 1} \otimes W) D_{22} (h^{- 1 1} Q^{T} \otimes {eu}^{- 1 1} W^{T}) \\ t_{22} & = \frac{α}{β} Q h^{- 1 1} Q^{T} \otimes Eu \\ s_{22} & = (Q h^{- 1 1} \otimes W) D_{22} (h^{- 1 1} Q^{T} \otimes W^{T}) \\ D_{11} & = \frac{α}{β} {(h \otimes Eu - Eu \otimes {eu}^{- 1 1})}^{- 1 1} \\ D_{22} & = \frac{α}{β} {(Eu \otimes eu - h^{- 1 1} \otimes Eu)}^{- 1 1} \\ eu & = \frac{α}{β} Σ^{- 1 1} + Eu \\ h & = \frac{α}{β} D^{- 1 1} + Eu . \end{aligned}

$\begin{align} t_{11} &= \frac{\alpha}{\beta}I \otimes W l^{-1} W^T \\ s_{11} &= (Q \otimes W l^{-1})D_{11}(Q^T \otimes l^{-1}W^T) \\ t_{12} &= -\frac{\alpha}{\beta} Q h^{-1} Q^T \otimes W l^{-1} W^T \\ s_{12} &= -(Q h^{-1} \otimes W l^{-1})D_{22}(h^{-1} Q^T \otimes W^T) \\ t_{21} &= t_{12} \\ s_{21} &= -(Q h^{-1} \otimes W)D_{22}(h^{-1} Q^T \otimes l^{-1} W^T) \\ t_{22} &= \frac{\alpha}{\beta}Q h^{-1} Q^T \otimes I \\ s_{22} &= (Q h^{-1} \otimes W)D_{22}(h^{-1}Q^T \otimes W^T) \\ D_{11} &= \frac{\alpha}{\beta}\left(h \otimes I - I \otimes l^{-1} \right)^{-1} \\ D_{22} &= \frac{\alpha}{\beta}\left(I \otimes l - h^{-1} \otimes I \right)^{-1} \\ l &= \frac{\alpha}{\beta} \Sigma^{-1} + I \\ h &= \frac{\alpha}{\beta} D^{-1} + I. \end{align}$

Nesta forma, podemos aplicar o inverso e encontrar o termo por termo através de 8 sanduíches de multiplicação de matrizes esquerda e direita. A fórmula geral para aplicar a soma dos produtos Kronecker é: $Z_B$

(({UMA}_{1 1} \otimes B_{1 1}) + ({UMA}_{2} \otimes B_{2}) + \dots) v e c (C) = v e c (B_{1 1}^{T} C {UMA}_{1 1} + B_{2}^{T} C {UMA}_{2} + \dots) .

$\left((A_1 \otimes B_1) + (A_2 \otimes B_2) + \dots\right)\mathrm{vec}(C) = \mathrm{vec}(B_1^T C A_1 + B_2^T C A_2 + \dots ).$

Observe que todos os inversos explícitos com os quais terminamos são diagonais, portanto não há nada a ser "resolvido".

Código do solucionador linear

Eu implementei os dois solucionadores acima no Matlab. O parece funcionar bem. O código do solucionador está aqui. $z_J,Z_B$

https://github.com/NickAlger/MeshADMM/blob/master/zkronsolve.m

Um script de teste para verificar se o solucionador funciona aqui. Também mostra por exemplo como chamar o código do solucionador.

https://github.com/NickAlger/MeshADMM/blob/master/test_zkronsolve.m

Observações finais

Os métodos do tipo ADMM são adequados para problemas como esse, mas você precisaria rolar sua própria implementação. A estrutura geral do método é bastante simples, portanto a implementação não é muito difícil em algo como o MATLAB.

A peça que falta nesta postagem que precisaria ser especificada para definir completamente o método para o seu problema é uma opção de parâmetros de penalidade . Felizmente, o método geralmente é bastante robusto, desde que os valores dos parâmetros não sejam loucos. O artigo de Boyd e Parikh tem uma seção sobre os parâmetros de penalidade, assim como as referências, mas eu experimentaria os parâmetros até obter taxas de convergência razoáveis. $\alpha,\beta$

As estratégias de resolução de apresentadas são altamente eficazes se as matrizes de restrição forem: a) densas, quadradas e altas, ou b) tiverem uma boa aproximação de baixa classificação. Outra solver útil que poderia ser um tema de trabalho futuro seria um solucionador otimizado para o caso seguinte - a matriz de restrição é escassa e squareish e alto escalão, mas existe uma boa pré-condicionador para . Seria esse o caso se, por exemplo, fosse um laplaciano discreto. $Z_J,Z_B$ $M$ $\alpha I + MM^T$ $M$

— Nick Alger
fonte

Implementando isso agora! Para verificar, a matriz resolvida para e deve ser simétrica / positiva definida, pois vem de mínimos quadrados, certo? Isso parece empiricamente verdadeiro :-). Então, o CG é uma opção melhor que o GMRES?

Z_{B}

$Z_B$

Z_{J}

$Z_J$

— 23616 Justin Solomon

Além disso, acho que a atualização para B está errada? Estou trabalhando nisso com mais detalhes, mas o recall B não aparece na minha função de energia (no term), portanto, não tenho certeza de que ele deve receber apenas valores em Estou pensando nisso errado? Obrigado!

| B |

$|B|$

\pm (1 - 1 / α) .

$\pm (1-1/\alpha).$

— Justin Solomon

[errr vez, ]

B = Z_{B} - Γ_{B} / α

$B = Z_B-\Gamma_B/\alpha$

— Justin Solomon

Surpreendente! Depois de colocar minhas próprias fórmulas para e (provavelmente próximo / equivalente ao que você postou, mas algo não estava funcionando), isso está superando em muito o método IRLS. Obrigado!

J

$J$

B

$B$

— 26630 Justin Solomon

Boas notícias. É tão bom ver quando as contribuições aqui levam a resultados reais.

— Michael Grant

Você pode pagar pelos SVDs Geoffrey Irving mencionados? Se você puder, consideraria uma abordagem IRLS (iteratively reweighted least squares) . Essa abordagem resolveria problemas no formato onde é uma matriz de peso.

\begin{array}{ll} minimizar & \sum_{Eu j} W_{Eu j} J_{Eu j}^{2} \\ sujeito a & M J + B Y = X \end{array}

$\begin{array}{ll}\text{minimize}&\sum_{ij} W_{ij}J_{ij}^2\\\text{subject to}&MJ+BY=X\end{array}$

W

$W$

As iterações começam com como a matriz all ones; isso produz um ótimo . As iterações prosseguem com que é uma pequena constante que impede a divisão por zero. Não tenho muita certeza sobre os critérios de convergência, mas talvez o link da Wikipedia que ofereci acima possa fornecer referências. $W^{(0)}$ $J^{(0)}$

W_{Eu j}^{(k + 1 1)} = {| max {J_{Eu j}^{(k)}, ϵ} |}^{- 1 1}

$W_{ij}^{(k+1)}=\left|\max\{J_{ij}^{(k)},\epsilon\}\right|^{-1}$

ϵ

$\epsilon$

Você também pode considerar um método suavizado de primeira ordem. O TFOCS, que eu co-escrevi, poderia lidar com isso usando seu solucionador de "dual cônico suavizado" (SCD), mas não será tão fácil de usar.

Se você quiser experimentar um método de ponto interior sem matriz, leia o trabalho de Jacek Gondzio.

EDIT: hmm, pode ser que o IRLS não consiga usar o SVD para calcular soluções. Nesse caso, voltaria a uma das outras opções.

— Michael Grant
fonte

Não tenho certeza se eu seria capaz de usar o SVD aqui, mas o IRLS é uma ótima idéia, independentemente disso! A velocidade não é uma preocupação tão grande quanto a memória, e embaraçosamente eu usei o IRLS para uma pesquisa relacionada há alguns meses e funcionou muito bem (me chutando por não ter tentado isso antes!). Mesmo sem o SVD para IRLS, deve ser possível fazê-lo usando um solucionador linear como o CG que não precise do sistema completo. De fato, o CG provavelmente pode ser parado com restrições bastante frouxas antes de ajustar como você sugere. Também estou analisando uma abordagem do ADMM, mas tenho menos experiência com isso.

W_{i j}

$W_{ij}$

— 23616 Justin Solomon

Sim, o ADMM também seria ótimo. Na verdade, escrevi uma seção sugerindo que você eliminasse Y completamente, mas depois vi que não era quadrado.

M

$M$

— Michael Grant

Implementou a estratégia IRLS - ela converge, mas numericamente não se sai muito bem, pois o sistema linear a ser resolvido está mal condicionado, graças a uma ampla gama de 's; usando GMRES para resolver o sistema. Vai tentar o ADMM a seguir!

w

$w$

— 23616 Justin Solomon