PREFÁCIO: Eu não ligo para o mérito de usar um ponto de corte ou não, ou como alguém deve escolher um ponto de corte. Minha pergunta é puramente matemática e devido à curiosidade.
A regressão logística modela a probabilidade condicional posterior da classe A versus a classe B e se ajusta a um hiperplano onde as probabilidades condicionais posteriores são iguais. Portanto, em teoria, entendi que um ponto de classificação 0,5 minimizará os erros totais, independentemente do equilíbrio definido, pois modela a probabilidade posterior (supondo que você encontre consistentemente a mesma proporção de classe).
No meu exemplo da vida real, obtenho uma precisão muito baixa usando P> 0,5 como ponto de classificação (cerca de 51% de precisão). No entanto, quando olhei para a AUC, ela está acima de 0,99. Então, observei alguns valores de corte diferentes e constatei que P> 0,6 me proporcionou 98% de precisão (90% para a classe menor e 99% para a classe maior) - apenas 2% dos casos classificados incorretamente.
As classes são fortemente desequilibradas (1: 9) e é um problema de alta dimensão. No entanto, aloquei as classes igualmente para cada conjunto de validação cruzada, para que não haja diferença entre o equilíbrio de classes entre o ajuste do modelo e a previsão. Também tentei usar os mesmos dados do ajuste do modelo e nas previsões e ocorreu o mesmo problema.
Estou interessado no motivo pelo qual 0,5 não minimizaria erros. Pensei que isso seria planejado se o modelo estivesse sendo ajustado minimizando a perda de entropia cruzada.
Alguém tem algum feedback sobre o porquê disso acontecer? É devido à adição de penalização, alguém pode explicar o que está acontecendo?