0-1 Explicação da função de perda

19

Estou tentando entender o que é o objetivo da função de perda e não consigo entender direito.

Portanto, até onde eu entendo, a função de perda é a introdução de algum tipo de métrica com a qual podemos medir o "custo" de uma decisão incorreta.

Então, digamos que eu tenho um conjunto de dados de 30 objetos, eu os dividi em conjuntos de treinamento / teste como 20 / 10. Eu usarei a função de perda de 0-1, digamos que meu conjunto de rótulos de classe seja M e a função tenha esta aparência :

L (i, j) = {\begin{cases} 0 i = j \\ 1 i \neq j \end{cases} i, j \in M

$L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M$

Então, construí um modelo nos meus dados de treinamento, digamos que estou usando o classificador Naive Bayes, e esse modelo classificou 7 objetos corretamente (atribuiu a eles os rótulos de classe corretos) e 3 objetos foram classificados incorretamente.

Portanto, minha função de perda retornaria "0" 7 vezes e "1" 3 vezes - que tipo de informação posso obter disso? Que meu modelo classificou 30% dos objetos incorretamente? Ou há algo mais?

Se há algum erro no meu modo de pensar, sinto muito, estou apenas tentando aprender. Se o exemplo que forneci for "abstrato demais", avise-me, tentarei ser mais específico. Se você tentar explicar o conceito usando exemplos diferentes, use a função de perda 0-1.

machine-learning loss-functions

— Johnny Johansson
fonte

14

Você resumiu corretamente a função de perda de 0-1, procurando efetivamente a precisão. Seus 1 se tornam indicadores de itens classificados incorretamente, independentemente de como foram classificados incorretamente. Como você tem três 1's em 10 itens, a precisão da sua classificação é de 70%.

Se você alterar a ponderação da função de perda, essa interpretação não se aplica mais. Por exemplo, na classificação da doença, pode ser mais caro perder um caso positivo da doença (falso negativo) do que diagnosticar falsamente a doença (falso positivo). Nesse caso, sua função de perda pesaria mais a classificação errada falsa negativa. A soma de suas perdas não representaria mais precisão nesse caso, mas o "custo" total da classificação incorreta. A função de perda de 0-1 é única em sua equivalência à precisão, pois tudo o que importa é se você acertou ou não, e não como os erros são cometidos.

— Wang nuclear
fonte

@JohnnyJohansson, que é a definição de precisão nas estatísticas, consulte en.wikipedia.org/wiki/Sensitivity_and_specificity

— Tim

@ Tim - ainda estou confuso com a função de perda de 0-1 - a matriz resultante pode ter valores maiores que 1, ou seja, se houver 3 classificações de falta, veremos um valor de 3 na entrada correspondente? veja aqui math.stackexchange.com/questions/2623072/…

— Xavier Bourret Sicotte,

2

$L_1$ $L_2$

— Tim
fonte

0

Acho que sua confusão não diferencia a perda de um ponto de dados da perda de todo o conjunto de dados.

$L(y,\hat y)$

\sum_{i} L (y_{i}, {\hat{y}}_{i})

$\sum_i L(y_i,\hat y_i)$

— Haitao Du
fonte

Na verdade, eu entendo a diferença, mas é difícil para mim entender o que eu precisaria dessa perda para um ponto de dados que não fosse o cálculo da perda para todo o conjunto de dados? E o que devo considerar ao escolher a função de perda adequada para algum problema específico?

— Johnny Johansson