Respostas:
Uma solução aproximada pode realmente ser encontrada para o laço usando métodos de subgradiente. Por exemplo, digamos que desejamos minimizar a seguinte função de perda:
O gradiente do termo da penalidade é para e para , mas o termo da penalidade é indiferenciável em . Em vez disso, podemos usar o subgradiente , que é o mesmo, mas tem um valor de para .
O subgradiente correspondente para a função de perda é:
Podemos minimizar a função de perda usando uma abordagem semelhante à descida do gradiente, mas usando o subgradiente (que é igual ao gradiente em todos os lugares, exceto , onde o gradiente é indefinido). A solução pode estar muito próxima da solução do laço real, mas pode não conter zeros exatos - onde os pesos deveriam ser zero, eles usam valores extremamente pequenos. Essa falta de verdadeira escarsidade é um dos motivos para não usar métodos de subgradiente para o laço. Os solucionadores dedicados aproveitam a estrutura do problema para produzir soluções verdadeiramente esparsas de uma maneira computacionalmente eficiente. Esta postagemdiz que, além de produzir soluções esparsas, métodos dedicados (incluindo métodos de gradiente proximal) têm taxas de convergência mais rápidas que os métodos de subgradientes. Ele dá algumas referências.