Medida de desempenho do classificador que combina sensibilidade e especificidade?

Eu tenho dados rotulados de 2 classes nos quais estou executando a classificação usando vários classificadores. E os conjuntos de dados são bem equilibrados. Ao avaliar o desempenho dos classificadores, preciso levar em consideração a precisão do classificador em determinar não apenas os verdadeiros positivos, mas também os verdadeiros negativos. Portanto, se eu usar precisão, e se o classificador for direcionado para positivos e classificar tudo como positivo, terei cerca de 50% de precisão, mesmo que tenha falhado na classificação de quaisquer verdadeiros negativos. Essa propriedade é estendida à precisão e recuperação, pois se concentra em apenas uma classe e, por sua vez, na pontuação F1. (Isso é o que eu entendo, mesmo neste artigo, por exemplo: " Além da precisão, F-score e ROC: uma família de medidas discriminantes para avaliação de desempenho ").

Portanto, posso usar sensibilidade e especificidade (TPR e TNR) para ver como o classificador se saiu para cada classe, onde pretendo maximizar esses valores.

Minha pergunta é que estou procurando uma medida que combine esses dois valores em uma medida significativa . Analisei as medidas fornecidas nesse documento, mas achei que não era trivial. E com base no meu entendimento, eu me perguntava por que não podemos aplicar algo como o F-score, mas, em vez de usar precisão e recordação, usaria sensibilidade e especificidade? Portanto, a fórmula seria e meu objetivo seria maximizar essa medida. Eu acho que é muito representativo. Já existe uma fórmula semelhante? E isso faria sentido ou é matematicamente correto?

my Performance Measure = \frac{2 * sensitivity * specificity}{sensitivity + specificity}

$\text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}$

— Kalaji
fonte

Respostas:

Eu diria que pode não haver nenhuma medida específica ou apenas uma que você deva levar em consideração.

Na última vez em que fiz a classificação probabilística, tive um pacote R ROCR e valores de custo explícitos para os falsos positivos e falsos negativos.

Considerei todos os pontos de corte de 0 a 1 e usei muitas medidas, como custo esperado, ao selecionar esse ponto de corte. É claro que eu já tinha uma medida da AUC para a medida geral de classificação da precisão. Mas para mim essa não era a única possibilidade.

Os valores para os casos de PF e FN devem estar fora do seu modelo específico, talvez estes sejam fornecidos por algum especialista no assunto?

Por exemplo, na análise de rotatividade de clientes, pode ser mais caro inferir incorretamente que o cliente não está rotativo, mas também será caro oferecer uma redução geral nos preços dos serviços sem precisão para direcioná-los para grupos corretos.

-Analista

— Analista
fonte

Na verdade, para o meu caso, é meio parecido. Porque os casos de FP e FN serão caros no meu modelo. Acabei fazendo algo parecido com o que você sugeriu "usando várias medidas". Calculei a pontuação F para cada rótulo de classe e para avaliar os modelos, utilizo esses dois valores juntamente com alguma função de custo que usa precisão (para ambas as classes) para calcular o lucro e subtrair a perda incorrida nos casos de FP e FN.

— Kalaji

Precisão, sensibilidade, especificidade e qualquer combinação simples de classificação são regras de pontuação inadequadas. Ou seja, eles são otimizados por um modelo falso. Usá-los fará com que você escolha os recursos errados, dê os pesos errados e tome decisões abaixo do ideal. Uma das muitas maneiras pelas quais as decisões são abaixo do ideal é a falsa confiança que você obtém quando as probabilidades previstas estão próximas do limite implícito pelo uso dessas medidas. Em resumo, tudo o que pode dar errado dá errado com essas medidas. Usá-los para comparar até dois modelos bem ajustados irá enganá-lo.

— Frank Harrell
fonte

Concordo que qualquer modelo gerado é um "modelo falso", como você mencionou. Mas ainda preciso de uma medida para avaliar sua qualidade, para escolher um modelo eventualmente. Supondo que meus recursos já tenham sido selecionados (tentando vários conjuntos de dados com diferentes conjuntos de recursos), e eu estou usando a validação cruzada de cinco vezes para determinar se meus classificadores estão sobregravando os dados, essas "regras de pontuação" simples são as mais amplamente utilizado na literatura. Que outras medidas você sugeriria então? A maioria das medidas depende de combinações desses valores, incluindo LR +/-, ROC e AUC.

— Kalaji

Antes de tudo, você tem o cuidado de repetir todas as etapas exploratórias / de modelagem do zero para cada um dos cinco ajustes de modelo usados no CV de 5 vezes? A medida de qualidade padrão-ouro é a probabilidade logarítmica e as quantidades dela derivadas, como e desvio. Para o binário isso leva a uma regra de pontuação de probabilidade logarítmica. Nesse caso, você também pode usar outra pontuação adequada, a pontuação Brier (erro quadrático médio nas probabilidades previstas).

R^{2}

$R^2$

Y

$Y$

— precisa

Com base na minha leitura, isso se aplica caso meus modelos gerem probabilidades em vez de valores discretos (ou seja, uma probabilidade de que uma instância pertença à classe 0 ou 1 em vez de gerar 0 ou 1). E, por sua vez, isso tinha a ver com a implementação dos classificadores, por exemplo, se aplica a um classificador Naive Bayes, mas não a um classificador 1-NN. Observe que não estou implementando os classificadores, estou usando alguns classificadores no Weka para gerar meus modelos. Talvez eu esteja um pouco confuso aqui. Obrigado.

— Kalaji

Se o método que você está usando não gera probabilidades, sugiro encontrar outro método.

— precisa

Se houver disparidades bem compreendidas entre o custo real da precisão e a sensibilidade (não aplicável à postagem original), por que você evitaria usá-las? Seria preferível um erro de entropia cruzada tendencioso (por exemplo, a penalidade do termo (1-c) * log (1-p) é dobrada)?

— Max Candocia