Escolhendo entre funções de perda para classificação binária

Eu trabalho em um domínio problemático em que as pessoas frequentemente relatam ROC-AUC ou AveP (precisão média). No entanto, recentemente encontrei trabalhos que otimizam a perda de log , enquanto outros relatam perda de dobradiça .

Embora eu entenda como essas métricas são calculadas, estou tendo dificuldades para entender as vantagens e desvantagens entre elas e o que é bom para o que exatamente.

Quando se trata de ROC-AUC vs Precision-Recall, este tópico discute como a maximização do ROC-AUC pode ser vista como usando um critério de otimização de perdas que penaliza "classificar um negativo verdadeiro pelo menos tão grande quanto um positivo positivo" (assumindo que valores mais altos as pontuações correspondem aos positivos). Além disso, esse outro segmento também fornece uma discussão útil sobre o ROC-AUC, em contraste com as métricas do Precision-Recall .

No entanto, para que tipo de problemas a perda de log seria preferível a, digamos, ROC-AUC , AveP ou perda de dobradiça ? Mais importante, que tipos de perguntas se deve fazer sobre o problema ao escolher entre essas funções de perda para classificação binária?

loss-functions

— Josh
fonte

A referência de ponta sobre o assunto é [1]. Essencialmente, mostra que todas as funções de perda especificadas convergirão para o classificador Bayes, com taxas rápidas.

A escolha entre estas para amostras finitas pode ser orientada por vários argumentos diferentes:

Se você deseja recuperar probabilidades de eventos (e não apenas classificações), a perda de logística logística ou qualquer outro modelo linear generalizado (regressão probit, regressão complementar log-log, ...) é um candidato natural.
Se você busca apenas a classificação, o SVM pode ser uma escolha preferida, pois direciona apenas observações ao nível de classificação e ignora a observação distante, aliviando o impacto da veracidade do modelo linear assumido.
Se você não tiver muitas observações, a vantagem em 2 pode ser uma desvantagem.
Pode haver diferenças computacionais: no problema de otimização declarado e na implementação específica que você está usando.
Bottom line- você pode simplesmente experimentar todos eles e escolher o melhor artista.

[1] Bartlett, Peter L, Michael I Jordan e Jon D McAuliffe. "Convexidade, classificação e limites de risco". Journal of the American Statistical Association 101, no. 473 (março de 2006): 138–56. doi: 10.1198 / 016214505000000907.

— JohnRos
fonte