Qual é a relação entre um SVM e uma perda de dobradiça?

Meu colega e eu estamos tentando entender a diferença entre regressão logística e SVM. Claramente, eles estão otimizando diferentes funções objetivas. Um SVM é tão simples quanto dizer que é um classificador discriminativo que simplesmente otimiza a perda de dobradiça? Ou é mais complexo que isso? Como os vetores de suporte entram em ação? E as variáveis de folga? Por que você não pode ter SVMs profundos da mesma maneira que você não pode ter uma rede neural profunda com funções de ativação sigmóide?

svm logistic-regression hinge-loss

— Simon
fonte

Eu tenho uma resposta razoável aqui: stats.stackexchange.com/questions/187186/… #

— Simon Simon

Estou votando para encerrar esta pergunta porque se trata de uma postagem cruzada: stats.stackexchange.com/q/187186/25741

— Martin Thoma

Ambos são modelos discriminativos, sim. A função de perda de regressão logística é conceitualmente uma função de todos os pontos. Os pontos classificados corretamente adicionam muito pouco à função de perda, adicionando mais se estiverem próximos ao limite. Os pontos próximos ao limite são, portanto, mais importantes para a perda e, portanto, decidem o quão bom é o limite.

O SVM usa uma perda de dobradiça, que conceitualmente enfatiza os pontos de contorno. Qualquer coisa além dos pontos mais próximos não contribui em nada para a perda por causa da "dobradiça" (o máximo) na função. Esses pontos mais próximos são os vetores de suporte, simplesmente. Portanto, na verdade, reduz-se a escolha de um limite que crie a maior margem - distância até o ponto mais próximo. A teoria é que o caso limite é tudo o que realmente importa para a generalização.

A desvantagem é que a perda de dobradiça não é diferenciável, mas isso significa apenas que é preciso mais matemática para descobrir como otimizá-la através dos multiplicadores Lagrange. Realmente não lida com o caso em que os dados não são linearmente separáveis. Variáveis de folga são um truque que permite que essa possibilidade seja incorporada de maneira limpa ao problema de otimização.

Você pode usar a perda de dobradiça com o "aprendizado profundo", por exemplo, http://arxiv.org/pdf/1306.0239.pdf

— Sean Owen
fonte