Como lidar com restrições de desigualdade de normas

8

Quero resolver a tarefa de otimização (convexa):

$max_{r,z}\quad r$
sujeito às duas restrições a seguir
$r\|x_i\| - x_i^Tz \leq 0 \qquad \forall i=1,\dots, N$
$\|z\| \leq 1$
$r\geq0$

$r$ é um escalar, $z$ é um vetor, os $x_i$ são vetores da mesma dimensão e $\|\cdot\|$ é o eucl simples. norma. Pode-se supor que a região viável não esteja vazia.

Existe uma maneira fácil de resolver isso? Eu acho que isso deve ser fácil, porque sem a restrição $\|z\|\leq 1$ , este é apenas um programa linear. Antes de consultar meus pacotes de software, você pode dar uma dica sobre a abordagem geral que é útil para esse tipo de tarefa?
Graças DG

optimization convex-optimization

— dgray
fonte

3

Você tem algumas opções, dependendo de como é crucial que você adote a norma euclidiana de . $z$

Use sua formulação como está, com um pequeno ajuste:

$max_{r,z}\quad r$
sujeito às duas restrições a seguir
$r\|x_i\| - x_i^Tz \leq 0 \qquad \forall i=1,\dots, N$
$z^{T}z \leq 1$
$r\geq0$

Esse problema é um programa quadraticamente restrito, para o qual existem muitos solucionadores rápidos por aí, como o CPLEX e o Gurobi. Esse programa específico também é um programa de cone de segunda ordem, programa semidefinido e programa não linear convexo, para que você também possa usar qualquer um desses solucionadores. A razão pela qual substituí a restrição da norma euclidiana por um produto escalar é que as duas restrições são equivalentes, mas a segunda é diferenciável, enquanto a primeira não é. Funções não diferenciáveis requerem algoritmos mais caros e esse problema não exige esse tipo de maquinário, portanto é melhor evitá-lo.
Mude a norma de . A norma 1 e a norma infinito são funções lineares dos elementos de , e a substituição da norma euclidiana em sua formulação por uma dessas normas resulta em um programa linear, para o qual os melhores solucionadores tendem a ser comerciais (Gurobi, CPLEX ), mas existem resolvedores livres mais lentos (GLPK, solucionadores no conjunto COIN-OR). Usar a norma 1 significa que qualquer solução para essa formulação também seria uma solução viável da sua formulação atual (ou seja, o uso da norma 1 traria uma restrição à sua formulação atual). Usar a norma infinito significa que qualquer solução para sua formulação atual também seria viável na formulação padrão infinito (ou seja, o uso da norma infinito produziria um relaxamento da sua formulação atual). $z$ $z$

Embora seja verdade que os solucionadores de programação linear sejam muito eficientes, eu selecionaria a opção 1, porque os solucionadores de programação com restrições quadráticas também são muito eficientes (em relação aos solucionadores de programação convexos e outros tipos de solucionadores de programação não lineares) e podem resolver formulações grandes (em centenas de milhares de variáveis de decisão, última vez que olhei a literatura). A menos que sua formulação seja surpreendentemente grande, você deve usar um solucionador de programação quadraticamente restrito em série e não precisa alterar a norma em sua formulação, a menos que seja absolutamente necessário.

Uma observação final: eu os vetores antes de construir sua formulação para que todos tenham uma norma de unidade, o que provavelmente ajudará no condicionamento de sua formulação quando você a resolver numericamente. É outro truque que praticamente não custa nada, mas protege contra dificuldades numéricas. $x_{i}$

— Geoff Oxberry
fonte

Você não deve chamar isso de programa semidefinido. É um programa quadraticamente restrito ou um programa de cone de segunda ordem um pouco mais geral. Chamando-o de um programa semidefinite seria semelhante a de chamar um programa linear um programa de segunda ordem cone (seguindo as classes lineares programa - Programa quadraticamente constrangidos - segundo programa cone ordem - programa semidefinite)

— Johan Löfberg

Você está certo que chamar isso de QP seria melhor. Por alguma razão, vi um gramiano (mesmo um pequeno) e pulei no padrão.

— Geoff Oxberry

Eu acho que o programa quadrático envia os sinais errados, normalmente é limitado a problemas com objetivos quadráticos e restrições lineares. problema quadraticamente restrito, ou, talvez o mais comum, mas um pouco mais geral do que o problema aqui, um programa de cone de segunda ordem.

— Johan Löfberg 9/08/13

1

Como vemos na resposta de Geoffs, esse é um problema quadraticamente restrito muito simples, ou mais geralmente um programa de cone de segunda ordem. Se você não possui requisitos extremos de desempenho ou dimensões enormes, resolvê-lo usando um solucionador não-linear padrão na forma quadrática ou usando um solucionador SOCP na formulação de normas funcionará perfeitamente bem. $z^Tz \leq 1$ $\|z\|\leq 1$

Se você precisar melhorar o desempenho, existem métodos para explorar o recurso de cone único. Aqui está um exemplo

SIAM J. Optim., 17 (2), 459-484. (26 páginas) Um método ativo definido para programas de cone de segunda ordem de cone único E. Erdougan e G. Iyengar

Gostaria de salientar que a substituição da norma por uma norma 1 provavelmente não funcionará bem. A norma quadrática tem sua origem no fundo geométrico desse problema (que eu interpreto como encontrar um vetor que tenha o menor ângulo para um determinado conjunto de vetores).

Curiosamente, uma aproximação de QP do problema parece funcionar extremamente bem. Remova a restrição quadrática e adicione uma penalidade ao objetivo. Eu não ficaria surpreso se for possível provar algo sobre isso. $\alpha z^Tz$

No código abaixo, implementado usando o YALMIP (Disclaimer, desenvolvido por mim) no MATLAB, usando o CPLEX como solucionador, a distância média do verdadeiro e calculado usando as heurísticas do QP é da ordem de , enquanto a distância para a solução da formulação LP (1 norma) está na ordem . $z$ $z$ $10^{-6}$ $10^{-1}$

z = sdpvar(5,1);
r = sdpvar(1);

err1 = [];
err2 = [];
for i = 1:1000
    X = randn(5,10);
    Con = [r*sqrt(sum(X.^2,1)) <= z'*X,norm(z,2) <= 1]
    sol = solvesdp(Con,-r)
    if sol.problem == 0 & double(r)>1e-3
        zSOCP = double(z);
        Con = [r*sqrt(sum(X.^2,1)) <= z'*X];
        sol = solvesdp(Con,-r+0.001*z'*z);
        zQP = double(z/norm(double(z)));
        err1 = [err1 norm(zQP-zSOCP)];
        Con = [r*sqrt(sum(X.^2,1)) <= z'*X, norm(z,1)<=1];
        sol = solvesdp(Con,-r);
        zLP = double(z/norm(double(z)));
        err2 = [err2 norm(zLP-zSOCP)];
    end
end

Por fim, o uso de insight geométrico pode levar a uma abordagem muito melhor para resolver esse problema. Você está procurando essencialmente um centro particularmente definido de um conjunto de pontos na esfera unitária.

— Johan Löfberg
fonte