Na modelagem de dados de contagem de solicitações em um ambiente de seguro, comecei com Poisson, mas depois notei superdispersão. Um Quasi-Poisson modelou melhor a maior relação média-variância que o Poisson básico, mas notei que os coeficientes eram idênticos nos modelos de Poisson e Quasi-Poisson.
Se isso não é um erro, por que isso está acontecendo? Qual é o benefício de usar o Quasi-Poisson sobre o Poisson?
Coisas a serem observadas:
- As perdas subjacentes são excessivas, o que (acredito) impediu o Tweedie de funcionar - mas foi a primeira distribuição que tentei. Também examinei os modelos NB, ZIP, ZINB e Hurdle, mas ainda assim achei o Quasi-Poisson o mais adequado.
- Testei a super-dispersão via dispersiontest no pacote AER. Meu parâmetro de dispersão foi de aproximadamente 8,4, com valor de p na magnitude 10 ^ -16.
- Estou usando glm () com family = poisson ou quasipoisson e um link de log para o código.
- Ao executar o código Poisson, saio com avisos de "In dpois (y, mu, log = TRUE): não inteiro x = ...".
Threads úteis da SE de acordo com a orientação de Ben:
Uma distribuição Tweedie não seria uma idéia melhor?
—
Duffymo
Tentei o Tweedie desde o início, mas nossos dados de perda não são básicos, mas em excesso. Também tentei os modelos Binomial Negativo, ZIP e Obstáculo para resolver a dispersão da contagem.
—
Frank H.
você pode explicar um pouco mais sobre a origem dos valores não inteiros nos seus dados?
—
quer
você não deve modelar frequências / taxas calculando taxas de
—
quer
counts/exposure
. Em vez disso, você deve adicionar um offset(log(exposure))
termo offset ( ) aos seus modelos.
É prático, embora seja mais importante ao fazer a modelagem de Poisson (não quase-Poisson). Não conheço uma boa referência de antemão; se você não encontrar uma resposta relevante aqui no CrossValidated, seria uma boa pergunta de acompanhamento.
—
Ben Bolker 14/10