Qual é a função de perda do SVM de margem rígida?

23

$\max(0,1-y_i(w^\intercal x_i+b))$

\frac{1}{2} ‖ w ‖^{2} + C \sum_{i} max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b))$

‖ w ‖^{2}

$\|w\|^2$

max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\max(0,1-y_i(w^\intercal x_i+b))$

No entanto, para o SVM de margem rígida, toda a função objetivo é apenas

\frac{1}{2} ‖ w ‖^{2}

$\frac{1}{2}\|w\|^2$ Isso significa que o SVM de margem rígida apenas minimiza um regularizador sem nenhuma função de perda? Isso parece muito estranho.

Bem, se $\frac{1}{2}\|w\|^2$ é a função de perda nesse caso, podemos chamá-la de função de perda quadrática? Em caso afirmativo, por que a função de perda do SVM de margem rígida se torna regularizada no SVM de margem flexível e faz a alteração de perda quadrática para perda de dobradiça?

svm loss-functions

— Roun
fonte

Pelo que entendi, margem rígida significa que você não aceita dados na sua margem. Como consequência, max (0, cálculo) retornará sempre 0.

— fxm

26

O termo de perda de dobradiça $\sum_i\max(0,1-y_i(\mathbf{w}^\intercal \mathbf{x}_i+b))$ na margem flexível SVM penaliza erros de classificação . No SVM de margem rígida, por definição, não há erros de classificação.

Isso realmente significa que o SVM de margem rígida tenta minimizar $\|\mathbf{w}\|^2$ . Devido à formulação do problema SVM, a margem é $2/\|\mathbf{w}\|$ . Assim, minimizar a norma $\mathbf{w}$ é geometricamente equivalente a maximizar a margem. Exatamente o que queremos!

A regularização é uma técnica para evitar ajustes excessivos, penalizando grandes coeficientes no vetor de solução. Na margem rígida, SVM é a função de perda e um regularizador . $\|\mathbf{w}\|^2$ $L_2$

No SVM de margem flexível, o termo de perda de dobradiça também atua como um regularizador, mas nas variáveis de folga em vez de e em e não em . regularização induz a , razão pela qual o SVM padrão é escasso em termos de vetores de suporte (em contraste com o SVM de mínimos quadrados). $\mathbf{w}$ $L_1$ $L_2$ $L_1$

— Marc Claesen
fonte

Você pode explicar os dois últimos parágrafos com mais detalhes e matemática?

— Nain

0

Apenas para esclarecer, é minimizado sujeito à restrição de que os pontos são linearmente separáveis (ou seja, é possível desenhar um hiperplano que separa perfeitamente os dois). Em outras palavras, os únicos valores permitidos de w que podemos considerar como soluções são aqueles que separam os dois conjuntos de pontos.

\frac{1}{2} ‖ w ‖^{2}

$\frac{1}{2}\|w\|^2$

Agora, acredita-se que o SVM de margem rígida "superaiba" mais facilmente do que a margem flexível. É mais fácil imaginar isso com um RBF SVM com alto o suficiente , o que pode criar limites de decisão (excessivamente) complicados e (potencialmente) excessivamente ajustados. Quanto mais difícil a margem (emulada imprecisa com um "C" mais alto)), mais difícil a pesquisa tentará encontrar limites de decisão que classifiquem perfeitamente os dois conjuntos de pontos. $\gamma$

Quando passamos para a "margem suave", as restrições são relaxadas e substituídas por uma restrição pela introdução de "folga". Essa variável de folga é definida com o termo "perda de dobradiça". Após a simplificação, chega-se à dobradiça + l2 como termo de perda que todos associam aos SVMs. FWIW, gosto de enquadrar os SVMs como mais um problema de otimização, em vez do onipresente "siga os gradientes".

— Ishan Patel
fonte