Qual é a relação entre um SVM e uma perda de dobradiça?

Meu colega e eu estamos tentando entender a diferença entre regressão logística e SVM. Claramente, eles estão otimizando diferentes funções objetivas. Um SVM é tão simples quanto dizer que é um classificador discriminativo que simplesmente otimiza a perda de dobradiça? Ou é mais complexo que isso? Como os vetores de suporte entram em ação? E as variáveis de folga? Por que você não pode ter SVMs profundos da mesma maneira que você não pode ter uma rede neural profunda com funções de ativação sigmóide?

— Simon
fonte

Aqui está minha tentativa de responder às suas perguntas:

Um SVM é tão simples quanto dizer que é um classificador discriminativo que simplesmente otimiza a perda de dobradiça? Ou é mais complexo que isso? Sim, você pode dizer isso. Além disso, não esqueça que ele também regulariza o modelo. Eu não diria SVM é mais complexa do que isso, no entanto, é importante mencionar que todas essas escolhas (por exemplo dobradiça perda e $L_2$ regularização) têm interpretações matemáticas precisas e não são arbitrárias. É isso que torna os SVMs tão populares e poderosos. Por exemplo, a perda de charneira é um convexo e contínuo superior ligada à perda de tarefas que, para os problemas de classificação binária, é o $0/1$ perda. Note-se que $0/1$ a perda é não convexa e descontínua. A convexidade da perda de dobradiça torna todo o objetivo do treinamento da SVM convexo. O fato de ser um limite superior à perda de tarefas garante que o minimizador do limite não tenha um valor ruim na perda de tarefas. $L_2$ regularização de pode ser geometricamente interpretada como o tamanho da margem.
Como os vetores de suporte entram em ação? Os vetores de suporte desempenham um papel importante no treinamento de SVMs. Eles identificam o hiperplano de separação. Seja símbolo de um conjunto de treinamento e seja o conjunto de vetores de suporte que você obtém treinando um SVM em (suponha que todos os hiperparâmetros sejam corrigidos a priori). Se jogarmos fora todas as amostras não SV de e treinarmos outro SVM (com os mesmos valores de hiperparâmetro) nas amostras restantes (ou seja, em ), obteremos o mesmo classificador exato de antes! $D$ $SV(D) \subseteq D$ $D$ $D$ $SV(D)$
$d(w, D)$ $w$ $D$ $w$ $D$ $d(w, D) = \min_{(x, y) \in D} y \frac{w^Tx}{||w||_2}$ $w$ $y \in \{+1, -1\}$
Por que você não pode ter SVMs profundos? O objetivo SVM é convexo. Mais precisamente, é quadrático por partes; isso ocorre porque o regularizador é quadrático e a perda de dobradiça é linear por partes. Os objetivos do treinamento em modelos hierárquicos profundos, no entanto, são muito mais complexos. Em particular, eles não são convexos. Obviamente, é possível projetar um modelo discriminativo hierárquico com perda de dobradiça e regularização etc., mas não seria chamado de SVM. De fato, a perda de dobradiça é comumente usada em DNNs (Deep Neural Networks) para problemas de classificação. $L_2$ $L_2$

— Sobi
fonte