Eu tenho 100.000 observações (9 variáveis indicadoras fictícias) com 1000 positivos. A regressão logística deve funcionar bem neste caso, mas a probabilidade de corte me intriga.
Na literatura comum, escolhemos um ponto de corte de 50% para prever 1s e 0s. Não posso fazer isso, pois meu modelo fornece um valor máximo de ~ 1%. Portanto, um limite pode ser 0,007 ou algo em torno dele.
Entendo as ROC
curvas e como a área sob a curva pode me ajudar a escolher entre dois modelos LR para o mesmo conjunto de dados. No entanto, o ROC não me ajuda a escolher uma probabilidade de corte ideal que possa ser usada para testar o modelo em dados fora da amostra.
Devo simplesmente usar um valor de corte que minimize o misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Adicionado -> Para uma taxa de eventos tão baixa, minhas taxas de classificação incorreta são afetadas por um grande número de falsos positivos. Embora a taxa geral pareça boa, o tamanho total do universo também é grande, mas meu modelo não deve ter tantos falsos positivos (pois é um modelo de retorno do investimento). 5/10 coeff são significativos.