Meu entendimento do SVM é que é muito semelhante a uma regressão logística (LR), ou seja, uma soma ponderada de recursos é passada para a função sigmóide para obter uma probabilidade de pertencer a uma classe, mas em vez da perda de entropia (logística) cruzada função, o treinamento é realizado usando a perda de dobradiça. O benefício de usar a perda de dobradiça é que se pode fazer vários truques numéricos para tornar a kernelização mais eficiente. Uma desvantagem, no entanto, é que o modelo resultante tem menos informações do que um modelo LR correspondente poderia ter. Portanto, por exemplo, sem a kernelização (usando um kernel linear), o limite de decisão do SVM ainda estaria no mesmo local em que o LR produziria uma probabilidade de 0,5; MAS não se pode dizer com que rapidez a probabilidade de pertencer a uma classe se afasta do limite de decisão.
Minhas duas perguntas são:
- Minha interpretação acima está correta?
- Como o uso da perda de dobradiça torna inválido a interpretação dos resultados SVM como probabilidades?