shabbychef deu uma explicação muito clara da perspectiva da complexidade do modelo. Vou tentar entender esse problema de outro ponto de vista, caso possa ajudar alguém.
Basicamente, queremos maximizar a margem no SVC. É o mesmo no SVR, enquanto queremos maximizar o erro de previsão em uma precisão definida para uma melhor generalização. Aqui, se minimizarmos o erro de previsão em vez de maximizar, é mais provável que o resultado da previsão em dados desconhecidos seja super adaptado. Vamos pensar no "maximizar o erro de previsão" no caso unidimensional.e
No caso unidimensional, nosso objetivo é maximizar as distâncias de todos os pontos até a linha de tendência y = ω x + b dentro de e . Observe que definimos a restrição da precisão como e para que possamos maximizar a distância, e não minimizar . Então vamos dar uma olhada na equação muito simples da distância de um ponto a uma linha.(xi,yi)y=ωx+bee
|ωxi−yi+b|ω2+1−−−−−√
No momento, o numerador está limitado a . Para maximizar a distância, o que tentamos fazer é minimizar ω .eω
Qualquer pessoa pode estender facilmente o caso unidimensional para o caso N-dimensional, pois a equação da distância será sempre a distância euclidiana .
Além disso, podemos ter uma revisão sobre o problema de otimização no SVR para a comparação [1].
min12||ω||2
s.t.{yi−<ω,xi>−b≤e<ω,xi>+b−yi≥e
Obrigado.
[1] Smola, A. e B. Schölkopf. Um tutorial sobre regressão de vetores de suporte. Estatística e Computação, vol. 14, nº 3, agosto de 2004, pp. 199–222.