Na verdade, é possível obter probabilidades de uma Máquina de Vetor de Suporte, que pode ser mais útil e interpretável do que um valor arbitrário de "pontuação". Existem algumas abordagens para fazer isso: um lugar razoável para começar é Platt (1999) .
A maioria dos pacotes / bibliotecas SVM implementa algo assim (por exemplo, a opção -b 1 faz com que o LibSVM produza probabilidades). Se você quiser criar o seu próprio, esteja ciente de que existem alguns problemas numéricos em potencial, resumidos nesta nota por Lin, Lin e Weng (2007) . Eles também fornecem algum código psued, que também pode ser útil.
Editar em resposta ao seu comentário : Não está claro para mim por que você prefere uma pontuação a uma probabilidade, especialmente porque você pode obtê-la com um esforço extra mínimo. Tudo isso dito, a maioria dos cálculos de probabilidade parece que são derivados da distância entre o ponto e o hiperplano. Se você olhar para a Seção 2 do documento de Platt, ele analisa a motivação e diz:
As densidades condicionais de classe entre as margens são aparentemente exponenciais. A regra de Bayes sobre dois exponenciais sugere o uso de uma forma paramétrica de um sigmóide:
Este modelo sigmóide é equivalente a assumir que a saída do SVM é proporcional à probabilidade logarítmica de um exemplo de treinamento positivo. [MK: foi definido em outro lugar como a saída SVM bruta]. f
P(y=1|f)=11+exp(Af+B)
f
O restante da seção do método descreve como ajustar os parâmetros e desse sigmóide. Na introdução (Seção 1.0 e 1.1), Platt analisa algumas outras abordagens de Vapnik, Wahba e Hasti & Tibshirani. Esses métodos também usam algo como a distância do hiperplano, manipulada de várias maneiras. Tudo isso parece sugerir que a distância do hiperplano contém algumas informações úteis, então acho que você poderia usar a distância bruta como uma medida (não linear) de confiança.BAB