Por favor, esclareça-me com o algoritmo SMO de Platt (para SVM)

De A_Roadmap_to_SVM_SMO.pdf , página 12.

Suponha que eu esteja usando o kernel linear, como poderei obter o primeiro e o segundo produto interno?

Meu palpite, produto interno do datapoint com datapoint j rotulado classe A para o primeiro produto interno da equação e produto interno do datapoint j com datapoint rotulado classe B para o segundo produto interno?

svm

— Vincent Benedict Victor
fonte

Sua compreensão está correta. O ponto é que a equação (8) não é exatamente uma equação, mas um sistema de equações, uma para cada índice dos vetores de suporte (aqueles para cada .

y_{i} (< w, ϕ_{i} > + b) - 1 = 0

$y_i(<\textbf{w}, \phi_i> + b) - 1 = 0$

i

$i$

0 < α_{i} < C

$0<\alpha_i<C$

O ponto é que você não pode calcular durante a otimização do problema duplo, pois isso não importa para otimização, você deve voltar e calcular de todas as outras equações que você possui (uma maneira possível é (8)). $b$ $b$

A sugestão de Vapnick é não usar apenas uma dessas equações, mas duas delas, especificamente um vetor de suporte para uma observação negativa e outro para uma observação positiva. Em outras palavras, dois vetores de suporte que possuem sinais opostos para . $y_i$

Vamos nomear o índice de um vetor de suporte e o índice de um vetor de suporte do lado oposto, conforme você seleciona no sistema de equações em (8) apenas dois deles. Avalie os dois e faça a média. $A$ $B$

De: : Onde e são duas estimativas, a média é

y_{A} (< w, ϕ_{A} > + b) = 1

$y_A(<\textbf{w},\phi_A>+b)=1$

y_{B} (< w, ϕ_{B} > + b) = 1

$y_B(<\textbf{w}, \phi_B>+b)=1$

b_{A} = \frac{1}{y_{A}} - < w, ϕ_{A} >

$b_A=\frac{1}{y_A}-<\textbf{w},\phi_A>$

b_{B} = \frac{1}{y_{B}} - < w, ϕ_{B} >

$b_B=\frac{1}{y_B}-<\textbf{w},\phi_B>$

b_{A}

$b_A$

b_{B}

$b_B$

b = (b_{A} + b_{B}) / 2 = - \frac{1}{2} (< w, ϕ_{A} > + < w, ϕ_{B} >) = - \frac{1}{2} \sum_{i = 1}^{n} y_{i} α_{i} (< ϕ (x_{i}), ϕ (x_{A}) > + < ϕ (x_{i}), ϕ (x_{B}) >)

$b = (b_A+b_B)/2 = -\frac{1}{2}(<\textbf{w},\phi_A>+<\textbf{w},\phi_B>)=-\frac{1}{2}\sum_{i=1}^{n}y_i\alpha_i(<\phi(x_i),\phi(x_A)>+<\phi(x_i),\phi(x_B)>)$

— rapaio
fonte