Eu tenho um conjunto de dados no qual a taxa de eventos é muito baixa (40.000 de ). Estou aplicando regressão logística sobre isso. Eu tive uma discussão com alguém de onde saiu que a regressão logística não daria uma boa matriz de confusão em dados tão baixos de taxa de eventos. Mas, devido ao problema de negócios e à maneira como ele foi definido, não posso aumentar o número de eventos de 40.000 para um número maior, embora concorde que posso excluir alguma população que não existe.
Por favor, diga-me sua opinião sobre isso, especificamente:
- A precisão da regressão logística depende da taxa de eventos ou há alguma taxa mínima de eventos recomendada?
- Existe alguma técnica especial para dados com baixa taxa de eventos?
- Excluir minha população sem eventos seria bom para a precisão do meu modelo?
Eu sou novo na modelagem estatística, então perdoe minha ignorância e resolva quaisquer problemas associados que eu possa pensar.
Obrigado,