Eu tenho dados com um pico duplo que estou tentando modelar e há sobreposição suficiente entre os picos que não posso tratá-los independentemente. Um histograma dos dados pode ser algo como isto:
Eu criei dois modelos para isso: um usa duas distribuições de Poisson e o outro usa duas distribuições binomiais negativas (para explicar a sobredispersão). Qual é a maneira apropriada de saber qual modelo se ajusta aos dados com mais precisão?
Meu pensamento inicial é que eu poderia usar um teste de Kolmogorov-Smirnov para comparar cada modelo com os dados e, em seguida, fazer um teste de razão de verossimilhança para ver se um é um ajuste significativamente melhor. Isso faz sentido? Nesse caso, não sei exatamente como executar o teste da razão de verossimilhança. O qui-quadrado é apropriado e quantos graus de liberdade eu tenho?
Se ajudar, algum código R (muito simplificado) para os modelos pode ser algo como isto:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
Edit: Aqui está uma imagem que pode explicar os dados e as distribuições que estou ajustando melhor. É totalmente claro pela visualização que o segundo modelo (usando a distância binomial negativa para explicar a sobredispersão) é um ajuste melhor. Eu gostaria de mostrar isso quantitativamente.
(vermelho - dados, verde - modelo)