Como prevemos eventos raros?

Estou trabalhando no desenvolvimento de um modelo preditivo de risco de seguro. Esses modelos são de "eventos raros", como previsão de não comparência de companhias aéreas, detecção de falhas de hardware etc. Ao preparar meu conjunto de dados, tentei aplicar a classificação, mas não consegui obter classificadores úteis devido à alta proporção de casos negativos. .

Eu não tenho muita experiência em estatística e modelagem de dados além de um curso de estatística do ensino médio, por isso estou meio confuso.

Como primeiro pensamento, estive pensando em usar um modelo de processo de Poisson não homogêneo. Classifiquei-o com base nos dados do evento (data, lat, lon) para obter uma boa estimativa da chance de um risco em um determinado momento em um dia específico em um determinado local.

Gostaria de saber quais são as metodologias / algoritmos para prever eventos raros?
O que você recomenda como uma abordagem para resolver esse problema?

— user3378649
fonte

A abordagem padrão é a " teoria dos valores extremos ", há um excelente livro sobre o assunto por Stuart Coles (embora o preço atual pareça bastante, err ... extremo).

O motivo pelo qual é improvável que você obtenha bons resultados usando os métodos de classificação ou regressão é que esses métodos geralmente dependem da previsão da média condicional dos dados e os eventos extremos geralmente são causados pela conjunção de fatores "aleatórios", todos alinhados na mesma direção, então eles estão na cauda da distribuição de resultados plausíveis, que geralmente estão muito longe da média condicional. O que você pode fazer é prever toda a distribuição condicional, e não apenas sua média, e obter algumas informações sobre a probabilidade de um evento extremo, integrando a cauda da distribuição acima de algum limite. Descobri que isso funcionou bem em uma aplicação de redução estatística de precipitações fortes .

— Dikran Marsupial
fonte

Existe alguma implementação dessa teoria em python?

— precisa saber é o seguinte

Desculpe, eu não programo em Python (ainda), então não posso ajudar lá.

— Dikran marsupiais

Desculpe, não entendo bem o seu raciocínio. Digamos que você tenha rv

e preditores

; você está interessado em prever quando

que acontece raramente. Por que você não pode ajustar algum modelo de classificação padrão para estimar a probabilidade condicional

- digamos, regressão logística? Se bem entendi, você está dizendo que modelar a média condicional

y

$y$

x_{1}, \dots, x_{n}

$x_1,\dots, x_n$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x_{1}, \dots, x_{n})

$P(y>Y_0|x_1,\dots,x_n)$

não nos fornece informações úteis sobre eventos extremos

, isso é verdade. Mas ainda podemos estimar

usando classificação padrão sem a teoria dos valores extremos - não?

E (y | x_{1}, \dots, x_{n})

$E(y|x_1,\dots,x_n)$

y > Y_{0}

$y>Y_0$

P (y > Y_{0} | x 1, \dots, x_{n})

$P(y>Y_0|x1,\dots,x_n)$

— Kochede

Sim, você pode fazer isso, no entanto, a função de custo que você está minimizando não está focada em acertar os detalhes da distribuição; portanto, se é nisso que você está interessado, é melhor tentar modelar os eventos nos detalhes mais explicitamente .

— Dikran Marsupial