Estou trabalhando no desenvolvimento de um modelo preditivo de risco de seguro. Esses modelos são de "eventos raros", como previsão de não comparência de companhias aéreas, detecção de falhas de hardware etc. Ao preparar meu conjunto de dados, tentei aplicar a classificação, mas não consegui obter classificadores úteis devido à alta proporção de casos negativos. .
Eu não tenho muita experiência em estatística e modelagem de dados além de um curso de estatística do ensino médio, por isso estou meio confuso.
Como primeiro pensamento, estive pensando em usar um modelo de processo de Poisson não homogêneo. Classifiquei-o com base nos dados do evento (data, lat, lon) para obter uma boa estimativa da chance de um risco em um determinado momento em um dia específico em um determinado local.
Gostaria de saber quais são as metodologias / algoritmos para prever eventos raros?
O que você recomenda como uma abordagem para resolver esse problema?