Suponha que eu esteja construindo um classificador de regressão logística que preveja se alguém é casado ou solteiro. (1 = casado, 0 = solteiro) Quero escolher um ponto na curva de precisão-recall que me dê pelo menos 75% de precisão, portanto, desejo escolher os limites e , para que:t 2
- Se a saída do meu classificador for maior que , a saída será "casada".
- Se a saída estiver abaixo de , eu "single".
- Se a saída estiver no meio, eu saio "Não sei".
Algumas perguntas:
- Penso que, sob a definição padrão de precisão, a precisão medirá a precisão da classe casada sozinha (ou seja, precisão = # vezes que eu prevejo corretamente o número total de vezes que prevejo o casamento). No entanto, o que eu realmente quero fazer é medir a precisão geral (ou seja, o total de # vezes que prevejo corretamente o casamento ou solteiro / total de vezes o número de predições de casado ou solteiro). Isso é bom? Se não, o que devo fazer?
- Existe uma maneira de calcular essa curva "geral" de precisão / recall em R (por exemplo, usando o pacote ROCR ou alguma outra biblioteca)? Atualmente, estou usando o pacote ROCR, mas parece apenas fornecer a precisão / recall de classe única de cada vez.