Por que é errado interpretar o SVM como probabilidades de classificação?

Meu entendimento do SVM é que é muito semelhante a uma regressão logística (LR), ou seja, uma soma ponderada de recursos é passada para a função sigmóide para obter uma probabilidade de pertencer a uma classe, mas em vez da perda de entropia (logística) cruzada função, o treinamento é realizado usando a perda de dobradiça. O benefício de usar a perda de dobradiça é que se pode fazer vários truques numéricos para tornar a kernelização mais eficiente. Uma desvantagem, no entanto, é que o modelo resultante tem menos informações do que um modelo LR correspondente poderia ter. Portanto, por exemplo, sem a kernelização (usando um kernel linear), o limite de decisão do SVM ainda estaria no mesmo local em que o LR produziria uma probabilidade de 0,5; MAS não se pode dizer com que rapidez a probabilidade de pertencer a uma classe se afasta do limite de decisão.

Minhas duas perguntas são:

Minha interpretação acima está correta?
Como o uso da perda de dobradiça torna inválido a interpretação dos resultados SVM como probabilidades?

machine-learning logistic svm

— GingerBadger
fonte

$\mathbf{x}$ $\mathbf{\beta}$ $\beta_0$ $y = sign(\beta \cdot \mathbf{x} + \beta_0)$ $\beta, \beta_0$

No caso de um SVM linear (sem kernel), o limite de decisão será semelhante ao de um modelo de regressão logística, mas pode variar dependendo da força de regularização usada para ajustar o SVM. Como o SVM e o LR resolvem diferentes problemas de otimização, não é garantido que você tenha soluções idênticas para o limite de decisão.

Existem muitos recursos sobre o SVM que ajudarão a esclarecer as coisas: aqui está um exemplo e outro .

— o Higgs Bros.
fonte

Higgs Boson Isso é muito útil, obrigado! Apenas algumas perguntas de acompanhamento: (1) você poderia dar um exemplo intuitivo quando um limite de decisão SVM NÃO seria semelhante a um LR? (2) é um dos SVM lineares e LR lineares geralmente melhores que o outro, ou existem tipos de problemas para os quais é preferível?

— GingerBadger 12/09

Alex: em geral, SVMs lineares e LR geralmente apresentam desempenho comparável na prática. Se você deseja uma saída probabilística, use LR. Se você se preocupa apenas com as tarefas da turma, também pode usar. Se você quisesse um exemplo em que seus limites de decisão fossem muito diferentes, você poderia imaginar um conjunto de dados linearmente separável com um punhado de pontos da classe errada distantes do limite de decisão. Os outliers puxariam o limite da regressão logística para si mesmos, mas se você tivesse um SVM com um termo de regularização suficientemente grande, ele efetivamente ignoraria os outliers.

— the higgs broson