Limites de generalização no SVM

Estou interessado em resultados teóricos para a capacidade de generalização de máquinas de vetores de suporte, por exemplo, limites na probabilidade de erro de classificação e na dimensão Vapnik-Chervonenkis (VC) dessas máquinas. No entanto, lendo a literatura, tive a impressão de que alguns resultados recorrentes semelhantes tendem a diferir levemente de autor para autor, particularmente no que diz respeito às condições técnicas necessárias para um dado limite.

A seguir, lembrarei da estrutura do problema SVM e do estado 3 dos principais resultados de generalização que encontrei de forma recorrente de uma forma ou de outra dou três referências principais ao longo da exposição. $-$

Configuração do problema :

Suponha temos uma amostra de dados dos pares independentes e identicamente distribuídas (iid) em que para todos os , e . Construímos uma máquina de vetores de suporte (SVM) que maximiza a mínima margem entre o hiperplana separação definida por , e e o ponto mais próximo entre , para separar as duas classes definidas por e . Deixamos que o SVM admita alguns erros através de uma margem flexível introduzindo variáveis de folga $(x_i,y_i)_{1\leq i\leq n}$ $i$ $x_i \in \mathbb{R}^p$ $y_i \in \{-1,1\}$ $m^*$ $\{x : w \cdot x + b = 0\}$ $w \in \mathbb{R}^p$ $b \in \mathbb{R}$ $x_1,\cdots,x_n$ $y = -1$ $y = 1$ $\xi_1,\cdots,\xi_n$ $-$ mas, para simplificar a notação, ignoramos a possibilidade de kernels. Os parâmetros da solução e são obtidos resolvendo o seguinte programa de otimização quadrática convexa: $w^*$ $b^*$

\begin{aligned} min_{w, b, ξ_{1}, \dots, ξ_{n}} & \frac{1}{2} ‖ w ‖^{2} + C \sum_{i = 1}^{n} ξ_{i} \\ s.t. : & y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i} & , \forall i \in {1, \dots, n} \\ ξ_{i} \geq 0 & , \forall i \in {1, \dots, n} \end{aligned}

$\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; y_i(w\cdot x_i+b) \geq 1 - \xi_i \, & , \, \forall \, i \in \{1,\cdots,n\} \\ & \; \xi_i \geq 0\, & , \, \forall \, i \in \{1,\cdots,n\} \end{align}$

Estamos interessados na capacidade de generalização desta máquina.

Dimensão Vapnik-Chervonenkis $VC$ :

Um primeiro resultado é devido a (Vapnik, 2000), no qual ele limita a dimensão VC de um hiperplano de separação, teorema 5.1. Deixando, temos: $R = \max_{x_i} \|x_i\|$

V C \leq min ({(\frac{R}{m^{*}})}^{2}, p) + 1

$VC \leq \min \left( \left( \frac{R}{m^*}\right)^2, \, p\right) + 1$

Esse resultado pode ser novamente encontrado no teorema 6. (Burges, 1998). No entanto, parece que o teorema de Burges é mais restritivo que o mesmo resultado de Vapnik, pois ele precisa definir uma categoria especial de classificadores, conhecidos como classificadores tolerantes a intervalos. ao qual o SVM pertence , para indicar o teorema. $-$ $-$

Limites da probabilidade de erros :

Em (Vapnik, 2000), o teorema 5.2 da página 139 fornece o seguinte limite na capacidade de generalização do SVM:

E [P_{error}] \leq \frac{1}{n} E [min (p, n_{S V}, (R ‖ w ‖)^{2})]

$\mathbb{E}[P_{\text{error}}] \leq \frac{1}{n}\mathbb{E} \left[ \min\left(p,n_{SV},(R \, \|w\|)^2 \right) \right]$

onde é o número de vetores de suporte do SVM. Esses resultados parecem ser encontrados novamente em (Burges, 1998), equações (86) e (93), respectivamente. Mas, novamente, Burges parece diferir de Vapnik, pois ele separa os componentes dentro da função mínima acima em diferentes teoremas, com diferentes condições. $n_{SV}$

Outro resultado que aparece em (Vapnik, 2000), p.133, é o seguinte. Supondo novamente que, para todo , e deixando e , definimos como igual a: $i$ $\|x_i\|^2 \leq R^2$ $h \equiv VC$ $\epsilon \in [0,1]$ $\zeta$

ζ = 4 \frac{h (ln \frac{2 n}{h} + 1) - ln \frac{ϵ}{4}}{n}

$\zeta = 4 \frac{h\left( \text{ln}\frac{2n}{h} + 1\right) - \text{ln}\frac{\epsilon}{4}}{n}$

Também definimos como o número de exemplos de treinamento mal classificados pelo SVM. Então, com a probabilidade , podemos afirmar que a probabilidade de um exemplo de teste não ser separado corretamente pelo hiperplano -gingin ou seja, SVM com margem tem o limite: $n_{\text{error}}$ $1-\epsilon$ $m^*$ $-$ $m^*$ $-$

P_{error} \leq \frac{n_{error}}{n} + \frac{ζ}{2} (1 + \sqrt{1 + \frac{4 n_{error}}{n ζ}})

$P_{\text{error}} \leq \frac{n_{\text{error}}}{n} + \frac{\zeta}{2} \left( 1 + \sqrt{1+ \frac{4 \, n_{\text{error}}}{n \, \zeta}} \right)$

No entanto, em (Hastie, Tibshirani e Friedman, 2009), p.438, um resultado muito semelhante é encontrado:

{Error}_{Test} \leq ζ

$\text{Error}_{\text{Test}} \leq \zeta$

Conclusão :

Parece-me que existe um certo grau de conflito entre esses resultados. Por outro lado, duas dessas referências, embora canônicas na literatura SVM, começam a ser um pouco antigas (1998 e 2000), especialmente se considerarmos que a pesquisa sobre o algoritmo SVM começou em meados dos anos noventa.

Minhas perguntas são:

Esses resultados ainda são válidos hoje ou foram provados errados?
Desde então, limites mais rigorosos com condições relativamente frouxas foram obtidos? Se sim, por quem e onde posso encontrá-los?
Finalmente, existe algum material de referência que sintetize os principais resultados de generalização sobre o SVM?

Referências :

Burges, JC (1998). "Um tutorial sobre máquinas de vetores de suporte para reconhecimento de padrões", Data Mining and Knowledge Discovery , 2: 121-167

Hastie, T., Tibshirani, R. e Friedman, J. (2009). The Elements of Statistical Learning , 2ª edição, Springer

Vapnik, VN (1998). Statistical Learning Theory , 1ª edição, John Wiley & Sons

Vapnik, VN (1999). "Uma visão geral da teoria estatística da aprendizagem", IEEE Transactions on Neural Networks , 10 (5): 988-999

Vapnik, VN (2000). A natureza da teoria estatística da aprendizagem , 2ª edição, Springer

machine-learning svm vc-dimension

— Daneel Olivaw
fonte

uma referência que resume os limites de risco de ponta (para 2008) para SVMs: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .

— registre

Não conheço a literatura a que você se refere em detalhes, mas acho que um resumo abrangente dos limites da generalização que deve estar atualizado pode ser encontrado em Boucheron et al. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Austrália-fevereiro-2-14-2003-Tuebingen-Alemanha-agosto-4-16-2003-Revised-Lectures.pdf # page = 176 )

Esboçarei parte do SVM vinculado a seguir, deixando de fora detalhes e provas.

Antes de elaborar especificamente sobre o SVM bound, precisamos entender o que os limites de generalização estão tentando alcançar.

Primeiro, vamos supor que a verdadeira probabilidade seja conhecida; o melhor classificador possível seria o classificador bayes, ou seja, $P(Y = +1| X = x)$

\begin{aligned} g * = {\begin{cases} + 1 i f P (Y = 1 | X = x) > 0.5 \\ - 1 o t h e r w i s e \end{cases} \end{aligned}

$\begin{align} g* = \begin{cases} + 1 \ \ if P(Y = 1| X = x) > 0.5 \\ -1 \ \ otherwise \end{cases} \end{align}$

O objetivo da teoria da aprendizagem estatística agora é encontrar a diferença entre um classificador da classe (por exemplo, SVM) e o classificador bayes, ou seja, Note-se que é a perda dada dados e esperadas é o melhor classificador possível na classe modelo . O termo é chamado de erro de estimativa e geralmente o foco, pois pode ser delimitado muito mais facilmente que o erro de aproximação (o outro termo). Também omitirei o erro de aproximação aqui. $C$

\begin{aligned} {\hat{g}}_{n} = a r g min_{g \in C} L_{n} (g) \end{aligned}

$\begin{align} \hat{g}_n = arg \min_{g \in C} L_n(g) \end{align}$

\begin{aligned} L ({\hat{g}}_{n}) - L (g *) = L ({\hat{g}}_{n}) - L (g_{c}^{*}) + L (g_{c}^{*}) - L (g *) . \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g*) = L(\hat{g}_n) - L(g^{*}_c) + L(g^{*}_c) - L(g*). \end{align}$

L (g) = E l (g (X), Y)

$L(g) = \mathbb{E}l(g(X),Y)$

g_{c}^{*}

$g^{*}_c$

C

$C$

Z =: L (g *) - L ({\hat{g}}_{n})

$Z =: L(g*) - L(\hat{g}_n)$

O erro de estimativa pode ser decomposto ainda mais com Agora, isso pode ser delimitado por duas etapas: $Z$

\begin{aligned} Z = Z - E Z + E Z . \end{aligned}

$\begin{align} Z = Z - \mathbb{E}Z + \mathbb{E}Z. \end{align}$

Limite usando McDiarmid desigualdade $Z - \mathbb{E}Z$
Limite com a complexidade Rademacher $\mathbb{E}Z$ $R_n(C) = \mathbb{E}sup_{g \in C}|1/n \sum_{i=1}^{n} l(g(X_i),Y_i)|$

Usando a desigualdade de McDiarmids, pode-se mostrar que, se a função de perda estiver em um intervalo não superior a , a etapa um resultará em um limite de onde é o nível de confiança. Para o segundo passo, podemos mostrar que Se você possui uma função de perda discreta, ou seja, não Lipschitz, como o 0-1 , você precisaria da VC-Dimension para limitar ainda mais a complexidade do Rademacher. No entanto, para funções L-lipschitz, como a perda de dobradiça, isso pode ser delimitado por que $B$

\begin{aligned} Z - E Z \leq 2 B \sqrt{\frac{l n (1 / δ)}{2 n}}, \end{aligned}

$\begin{align} Z - \mathbb{E}Z \leq 2 B \sqrt{\dfrac{ln(1/\delta)}{2n}}, \end{align}$

δ

$\delta$

\begin{aligned} E Z \leq 2 R_{n} (C), \end{aligned}

$\begin{align} \mathbb{E}Z \leq 2R_n(C), \end{align}$

\begin{aligned} R_{n} (C) \leq λ L R / \sqrt{n}, \end{aligned}

$\begin{align} R_n(C) \leq \lambda L R/\sqrt{n}, \end{align}$

λ

$\lambda$ indica o regularizador. Como para a perda de dobradiça e (prove com a desigualdade de Gauchy-Schwartz), isso simplifica ainda mais. Finalmente, reunindo todos os resultados, podemos vincular

L = 1

$L = 1$

B = 1 + λ R

$B = 1 + \lambda R$

\begin{aligned} L ({\hat{g}}_{n}) - L (g_{c}^{*}) \leq 2 (1 + λ R) \sqrt{\frac{l n (1 / δ)}{2 n}} + 4 λ L R / \sqrt{n} \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g^{*}_c) \leq 2(1 + \lambda R) \sqrt{\dfrac{ln(1/\delta)}{2n}} + 4 \lambda L R/\sqrt{n} \end{align}$

— dkoehn
fonte