Eu gostaria de estudar eventos raros em uma população finita. Como não tenho certeza sobre qual estratégia é mais adequada, eu gostaria de receber dicas e referências relacionadas a esse assunto, embora eu saiba que isso foi amplamente abordado. Eu realmente não sei por onde começar.
Meu problema é de ciências políticas e tenho uma população finita composta por 515.843 registros. Eles estão associados a uma variável dependente binária com 513.334 "0" se 2.505 "1" s. Eu posso cunhar meus "1" como eventos raros, pois eles representam apenas 0,49% da população.
Eu tenho um conjunto de cerca de 10 variáveis independentes com as quais gostaria de construir um modelo para explicar a presença de "1" s. Como muitos de nós, li o artigo de King & Zeng, de 2001, sobre a correção de eventos raros. Sua abordagem foi usar um design de controle de caso para reduzir o número de "0" s e aplicar a correção à interceptação.
No entanto, este post diz que o argumento de King & Zeng não era necessário se eu já tivesse coletado meus dados sobre toda a população, o que é o meu caso. Portanto, eu tenho que usar o modelo logit clássico. Infelizmente para mim, embora eu obtenha bons coeficientes significativos, meu modelo é completamente inútil em termos de previsão (falha em prever 99,48% dos meus "1" s).
Depois de ler o artigo de King & Zeng, eu quis experimentar um projeto de controle de caso e selecionei apenas 10% dos "0" s com todos os "1" s. Com quase os mesmos coeficientes, o modelo foi capaz de prever quase um terço dos "1" s quando aplicado a toda a população. Claro, existem muitos falso-positivos.
Tenho, portanto, três perguntas que gostaria de fazer:
1) Se a abordagem de King & Zeng é prejudicial quando você tem pleno conhecimento da população, por que eles usam uma situação em que conhecem a população em seu artigo para provar seu argumento?
2) Se eu tenho coeficientes bons e siginificantes em uma regressão logit, mas um poder preditivo muito baixo, isso significa que a variação explicada por essas variáveis não tem sentido?
3) Qual é a melhor abordagem para lidar com eventos raros? Li sobre o modelo de relogito de King, a abordagem de Firth, o logit exato etc. Devo confessar que estou perdido entre todas essas soluções.