Obrigado pela pergunta interessante!
Diferença: Uma limitação dos modelos de contagem padrão é que os zeros e os não-zeros (positivos) são assumidos como provenientes do mesmo processo de geração de dados. Nos modelos de obstáculos , esses dois processos não são restritos a serem os mesmos. A idéia básica é que uma probabilidade de Bernoulli governe o resultado binário de se uma variável de contagem tem uma realização zero ou positiva. Se a realização for positiva, o obstáculo será ultrapassado e a distribuição condicional dos positivos será governada por um modelo de dados de contagem truncada no zero. Com modelos inflados a zero, a variável de resposta é modelada como uma mistura de uma distribuição de Bernoulli (ou a chame de massa pontual em zero) e uma distribuição de Poisson (ou qualquer outra distribuição de contagem suportada em números inteiros não negativos). Para mais detalhes e fórmulas, consulte, por exemplo, Gurmu e Trivedi (2011) e Dalrymple, Hudson e Ford (2003).
Exemplo: Os modelos de obstáculos podem ser motivados por processos sequenciais de tomada de decisão enfrentados por indivíduos. Você primeiro decide se precisa comprar algo e depois decide a quantidade desse item (que deve ser positivo). Quando você tem permissão para (ou pode potencialmente) comprar nada após a sua decisão de comprar algo, é um exemplo de uma situação em que o modelo inflado a zero é apropriado. Os zeros podem vir de duas fontes: a) nenhuma decisão de compra; b) queria comprar, mas acabou comprando nada (por exemplo, fora de estoque).
Beta: o modelo de obstáculo é um caso especial do modelo de duas partes descrito no capítulo 16 de Frees (2011). Lá, veremos que, para modelos de duas partes, a quantidade de assistência médica utilizada pode ser uma variável contínua e uma variável de contagem. Então, o que foi chamado de certa forma confusa de "distribuição beta inflada a zero" na literatura pertence, de fato, à classe de distribuições e modelos de duas partes (tão comuns na ciência atuarial), o que é consistente com a definição acima de um modelo de barreira . Este excelente livro discutiu modelos inflados a zero na seção 12.4.1 e modelos de obstáculos na seção 12.4.2, com fórmulas e exemplos de aplicações atuariais.
História: os modelos de Poisson inflados a zero (ZIP) sem covariáveis têm uma longa história (ver, por exemplo, Johnson e Kotz, 1969). A forma geral de modelos de regressão ZIP incorporando covariáveis é devida a Lambert (1992). Os modelos de obstáculo foram propostos pela primeira vez por um estatístico canadense Cragg (1971) e posteriormente desenvolvidos por Mullahy (1986). Você também pode considerar Croston (1972), onde contagens geométricas positivas são usadas juntamente com o processo de Bernoulli para descrever um processo de valor inteiro dominado por zeros.
R: Finalmente, se você usar R, há o pacote pscl para "Classes e Métodos para R desenvolvidos no Laboratório Computacional de Ciência Política", de Simon Jackman, contendo as funções hurdle () e zeroinfl () de Achim Zeileis.
As seguintes referências foram consultadas para produzir o acima:
- Gurmu, S. & Trivedi, PK Excesso de Zeros em Modelos de Contagem para Viagens Recreativas Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distribuições em estatística: Distribuições discretas. 1969, Houghton MiZin, Boston
- Lambert, D., Regressão de Poisson inflada a zero com aplicação a defeitos de fabricação. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Alguns modelos estatísticos para variáveis dependentes limitadas com aplicação à demanda por bens duráveis Econometrica, 1971, 39, 829-844
- Mullahy, J. Especificação e teste de alguns modelos de dados de contagem modificados Journal of Econometrics, 1986, 33, 341-365
- Frees, modelagem de regressão EW com aplicações atuariais e financeiras Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL & Ford, RPK Finite Mixture, modelos de Poisson e Hurdle inflados a zero com aplicação à SIDS Computational Statistics & Data Analysis, 2003, 41, 491-504
- Croston, JD Forecasting e controle de estoque para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303