Como escolher uma métrica de erro ao avaliar um classificador?

15

Vi métricas de erro diferentes usadas nas competições do Kaggle: RMS, média quadrada, AUC, entre outras. Qual é a regra geral da escolha de uma métrica de erro, ou seja, como você sabe qual métrica de erro usar para um determinado problema? Existem diretrizes?

machine-learning classification error

— Vishal
fonte

12

O conjunto de métricas de erro que você pode escolher é diferente entre classificação e regressão. Neste último, você tenta prever um valor contínuo e, com a classificação, prevê classes discretas como "íntegro" ou "não íntegro". A partir dos exemplos mencionados, o erro quadrático médio da raiz seria aplicável para a regressão e a AUC para a classificação com duas classes.

Deixe-me dar um pouco mais de detalhes sobre classificação. Você mencionou a AUC como uma medida, que é a área sob a curva ROC, que geralmente é aplicado apenas a problemas de classificação binária com duas classes. Embora existam maneiras de construir uma curva ROC para mais de duas classes, elas perdem a simplicidade da curva ROC para duas classes. Além disso, as curvas ROC só podem ser construídas se o classificador de escolha gerar algum tipo de pontuação associada a cada previsão. Por exemplo, a regressão logística fornecerá probabilidades para cada uma das duas classes. Além da simplicidade, as curvas ROC têm a vantagem de não serem afetadas pela razão entre instâncias rotuladas positiva e negativamente em seus conjuntos de dados e não o forçam a escolher um limite. No entanto, é recomendável não apenas olhar apenas para a curva ROC, mas também outras visualizações. Eu recomendo dar uma olhada nas curvas de recuperação de precisão e nas curvas de custo.uma verdadeira medida de erro, todos eles têm suas forças e fraquezas.

A literatura que achei útil a esse respeito é:

Fawcett, T. (2006). Uma introdução à análise ROC . Cartas de reconhecimento de padrões, 27 (8), 861–874.
Drummond, C. & Holte, R. (2006). Curvas de custo: um método aprimorado para visualizar o desempenho do classificador . Aprendizado de máquina, 65 (1), 95–130
Parker, C. (2011). Uma análise de medidas de desempenho para classificadores binários . 11ª Conferência Internacional IEEE de 2011 sobre mineração de dados (pp. 517-526)
Davis, J. & Goadrich, M. (2006). A relação entre as curvas Precision-Recall e ROC . Anais da 23ª conferência internacional sobre aprendizado de máquina (pp. 233-240). Nova York, NY, EUA: ACM

Se o seu classificador não fornecer algum tipo de pontuação, você deverá recorrer às medidas básicas que podem ser obtidas de uma matriz de confusão que contém o número de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos. As visualizações mencionadas acima (ROC, precisão, recuperação, curva de custo) são todas baseadas nessas tabelas obtidas usando um limiar diferente da pontuação do classificador. A medida mais popular nesse caso é provavelmente a medida F1 $N$ $N \times N$ $N$ $2 \times 2$ $A$ $A$

— sebp
fonte

1

N

$N$

N \times N

$N \times N$

N

$N$

2 \times 2

$2\times2$

Muito obrigado por apontar esse erro, eu o corrigi na resposta acima.

— sebp 13/08/12

5

Deixe-me acrescentar mais algumas reflexões às respostas já existentes.

de fato, a maioria dos classificadores possui uma pontuação contínua intermediária, na qual geralmente é aplicado um limite para atribuir classes difíceis (abaixo de t: classe a, acima: classe b). A variação desse limite produz o ROC.
Em geral, não é uma boa ideia compactar essa curva em um número. veja, por exemplo, O Caso Contra Estimativa de Precisão para Comparação de Algoritmos de Indução
Há muitos ROC diferentes que têm a mesma AUC, e a utilidade pode variar amplamente para uma determinada aplicação.
ao contrário: a escolha do limite pode ser praticamente determinada pelo aplicativo que você possui.
Você não precisa examinar o desempenho do classificador fora desses limites e, se escolher uma métrica, isso deve resumir pelo menos apenas o intervalo relevante das outras métricas limitadas.
dependendo do desenho do seu estudo, a fração geral de amostras corretamente ou classificadas incorretamente pode ser um resumo apropriado ou não, e as conclusões que você pode tirar também dependerão do desenho do estudo: Seus dados de teste refletem as probabilidades anteriores (prevalência) do Aulas? Para a população em que seu classificador deve ser usado? Foi coletado de maneira estratificada? Isso está intimamente ligado ao fato de que a maioria dos usuários de um classificador está mais interessada nos valores preditivos, mas a sensibilidade e a especificidade são muito mais fáceis de medir.
Você pergunta sobre diretrizes gerais. Uma orientação geral é que você precisa saber
- que tipo de desempenho você precisa (sensibilidade, especificidade, valores preditivos, etc. responda a perguntas específicas sobre o comportamento do seu classificador, veja o que escrevi aqui ).
- Quais faixas de trabalho aceitáveis para essas características de desempenho para sua aplicação?
  Isso pode variar bastante: você pode aceitar alguns falsos negativos na detecção de spam, mas isso não seria uma configuração aceitável para o diagnóstico do HIV ...

Acho que você não conseguirá encontrar uma métrica útil, a menos que possa responder a essas perguntas.

É um pouco como se também não houvesse almoço grátis na validação do classificador.

— cbeleites apoia Monica
fonte

2

A taxa esperada de erro de classificação incorreta é o método que usei e vi com mais frequência. A AUC do ROC é uma medida de um conjunto de regras de classificação. Se a ideia é comparar um classificador específico com outro, a AUC não é apropriada. Alguma forma de erro de classificação faz mais sentido, pois representa mais diretamente o desempenho da regra de classificação.

Muito trabalho foi feito para encontrar boas estimativas da taxa de erro de classificação, devido ao grande viés da estimativa de re-substituição e à alta variação da exclusão. Bootstrap e estimadores suaves foram analisados. Veja, por exemplo, o artigo de Efron no JASA 1983 sobre melhorias de autoinicialização sobre validação cruzada.

Aqui está um relatório técnico da Universidade de Stanford de 1995, de Efron e Tibshirami, resumindo a literatura, incluindo alguns dos meus próprios trabalhos.

— Michael R. Chernick
fonte

Comparar o desempenho de dois classificadores no mesmo conjunto de dados é outro tópico a ser discutido. Especialmente, no caso do ROC e da AUC, existem alguns métodos para comparar as curvas do ROC como um todo ou as estimativas da AUC. Esses são essencialmente testes estatísticos com a hipótese nula de que o ROC / AUC não difere. A validação cruzada versus o bootstrap é outro tópico interessante. Vi recentemente um artigo ( dx.doi.org/10.1016/j.csda.2010.03.004 ) sobre isso. Eu acho que se você considerar todos os aspectos de uma só vez, pode ser bastante intimidador.

— sebp 13/08/12