Respostas:
O conjunto de métricas de erro que você pode escolher é diferente entre classificação e regressão. Neste último, você tenta prever um valor contínuo e, com a classificação, prevê classes discretas como "íntegro" ou "não íntegro". A partir dos exemplos mencionados, o erro quadrático médio da raiz seria aplicável para a regressão e a AUC para a classificação com duas classes.
Deixe-me dar um pouco mais de detalhes sobre classificação. Você mencionou a AUC como uma medida, que é a área sob a curva ROC, que geralmente é aplicado apenas a problemas de classificação binária com duas classes. Embora existam maneiras de construir uma curva ROC para mais de duas classes, elas perdem a simplicidade da curva ROC para duas classes. Além disso, as curvas ROC só podem ser construídas se o classificador de escolha gerar algum tipo de pontuação associada a cada previsão. Por exemplo, a regressão logística fornecerá probabilidades para cada uma das duas classes. Além da simplicidade, as curvas ROC têm a vantagem de não serem afetadas pela razão entre instâncias rotuladas positiva e negativamente em seus conjuntos de dados e não o forçam a escolher um limite. No entanto, é recomendável não apenas olhar apenas para a curva ROC, mas também outras visualizações. Eu recomendo dar uma olhada nas curvas de recuperação de precisão e nas curvas de custo.uma verdadeira medida de erro, todos eles têm suas forças e fraquezas.
A literatura que achei útil a esse respeito é:
Se o seu classificador não fornecer algum tipo de pontuação, você deverá recorrer às medidas básicas que podem ser obtidas de uma matriz de confusão que contém o número de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos. As visualizações mencionadas acima (ROC, precisão, recuperação, curva de custo) são todas baseadas nessas tabelas obtidas usando um limiar diferente da pontuação do classificador. A medida mais popular nesse caso é provavelmente a medida F1
Deixe-me acrescentar mais algumas reflexões às respostas já existentes.
dependendo do desenho do seu estudo, a fração geral de amostras corretamente ou classificadas incorretamente pode ser um resumo apropriado ou não, e as conclusões que você pode tirar também dependerão do desenho do estudo: Seus dados de teste refletem as probabilidades anteriores (prevalência) do Aulas? Para a população em que seu classificador deve ser usado? Foi coletado de maneira estratificada? Isso está intimamente ligado ao fato de que a maioria dos usuários de um classificador está mais interessada nos valores preditivos, mas a sensibilidade e a especificidade são muito mais fáceis de medir.
Você pergunta sobre diretrizes gerais. Uma orientação geral é que você precisa saber
Acho que você não conseguirá encontrar uma métrica útil, a menos que possa responder a essas perguntas.
É um pouco como se também não houvesse almoço grátis na validação do classificador.
A taxa esperada de erro de classificação incorreta é o método que usei e vi com mais frequência. A AUC do ROC é uma medida de um conjunto de regras de classificação. Se a ideia é comparar um classificador específico com outro, a AUC não é apropriada. Alguma forma de erro de classificação faz mais sentido, pois representa mais diretamente o desempenho da regra de classificação.
Muito trabalho foi feito para encontrar boas estimativas da taxa de erro de classificação, devido ao grande viés da estimativa de re-substituição e à alta variação da exclusão. Bootstrap e estimadores suaves foram analisados. Veja, por exemplo, o artigo de Efron no JASA 1983 sobre melhorias de autoinicialização sobre validação cruzada.
Aqui está um relatório técnico da Universidade de Stanford de 1995, de Efron e Tibshirami, resumindo a literatura, incluindo alguns dos meus próprios trabalhos.