Medida de "desvio" para Poisson inflado a zero ou binomial negativo inflado a zero?


11

O desvio escalado, definido como D = 2 * (probabilidade logarítmica do modelo saturado menos probabilidade logarítmica do modelo ajustado), é freqüentemente usado como uma medida de qualidade de ajuste nos modelos GLM. O desvio percentual explicado, definido como [D (modelo nulo) - D (modelo ajustado)] / D (modelo nulo), também é às vezes usado como o analógico GLM para o quadrado R da regressão linear. Além do fato de que as distribuições ZIP e ZINB não fazem parte da família exponencial de distribuições, estou tendo problemas para entender por que o desvio escalonado e o desvio percentual explicado não são usados ​​na modelagem inflada a zero. Alguém pode esclarecer isso ou fornecer referências úteis? Desde já, obrigado!


pergunta muito boa - Eu gostaria de saber isso também
user2673238

Respostas:


3

O desvio é um conceito GLM, os modelos ZIP e ZINB não são glms, mas são formulados como misturas finitas de distribuições que são GLMs e, portanto, podem ser facilmente resolvidas pelo algoritmo EM.

Essas notas descrevem a teoria do desvio de forma concisa. Se você ler essas notas, verá a prova de que o modelo saturado da regressão de Poisson tem probabilidade de log

(λs)=i=1,yi0n[yilog(yi)yilog(yi!)]

que resulta das estimativas de plug-in .yi=λ^i

Vou prosseguir agora com a probabilidade do ZIP porque a matemática é mais simples, e resultados semelhantes são válidos para o ZINB. Infelizmente para o ZIP, não existe um relacionamento simples como no Poisson. A ésima probabilidade de log de observações éi

i(ϕ,λ)=Zilog(ϕ+(1ϕ)eλ)+(1Zi)[λ+yilog(λ)log(yi!)].

o não é observado, portanto, para resolver isso, é necessário derivadas parciais em e , definir as equações para 0 e depois resolver para e . A dificuldade aqui são os valores , eles podem entrar em um ou em um e não é possível sem observar qual colocar as observações . No entanto, se soubéssemos o valor , não precisaríamos de um modelo ZIP, porque não teríamos dados ausentes. Os dados observados correspondem à probabilidade de "dados completos" no formalismo EM. X & Phi; X & Phi; y i = 0 X & Phi; Z i y i = 0 Z iZiλϕλϕyi=0λ^ϕ^Ziyi=0Zi

Uma abordagem que pode ser razoável é trabalhar com a expectativa em da probabilidade completa do log de dados, que remove o e substitui por uma expectativa. parte do que o algoritmo EM calcula (a etapa E) com as atualizações mais recentes. Não conheço nenhuma literatura que tenha estudado essa abordagem do desvio .E ( i ( φ , λ ) ) Z i de e x p e c t e dZiE(i(ϕ,λ))Ziexpected

Além disso, essa pergunta foi feita primeiro, então eu respondi a esta postagem. No entanto, há outra pergunta sobre o mesmo tópico com um bom comentário de Gordon Smyth aqui: desvio para o modelo de poisson composto inflado a zero, dados contínuos (R) onde ele mencionou a mesma resposta (esta é uma elaboração desse comentário que eu gostaria digamos) mais eles mencionaram nos comentários para o outro post um artigo que você pode querer ler. (aviso de isenção, não li o artigo mencionado)

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.