Respostas:
Primeiro de tudo, meu conselho é que você deve se abster de experimentar uma distribuição de Poisson da mesma forma que para os dados. Sugiro que você primeiro faça uma teoria sobre por que a distribuição de Poisson se encaixa em um determinado conjunto de dados ou fenômeno.
Depois de estabelecer isso, a próxima pergunta é se a distribuição é homogênea ou não. Isso significa se todas as partes dos dados são tratadas pela mesma distribuição de poisson ou há uma variação nisso com base em algum aspecto como tempo ou espaço. Depois de se convencer desses aspectos, tente os três testes a seguir:
procure-os e você os encontrará facilmente na rede.
Aqui está uma sequência de comandos R que podem ser úteis. Sinta-se livre para comentar ou editar se detectar algum erro.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
Suponho que a maneira mais fácil é fazer um teste de qualidade do ajuste do qui-quadrado .
De fato, aqui está um bom applet java que fará exatamente isso!
Você pode usar a dispersão (razão de variação para a média) como estatística de teste, pois o Poisson deve fornecer uma dispersão de 1. Aqui está um link para como usá-la como modelo de teste.
Para uma distribuição de Poisson, a média é igual à variância. Se a média da amostra for muito diferente da variação da amostra, provavelmente você não possui dados de Poisson. O teste de dispersão também mencionado aqui é uma formalização dessa noção.
Se a sua variação for muito maior que a sua média, como geralmente é o caso, convém tentar uma distribuição binomial negativa a seguir.
Você pode desenhar uma única figura na qual as frequências observadas e esperadas são desenhadas lado a lado. Se as distribuições forem muito diferentes e você também tiver uma taxa de variação média maior que uma, um bom candidato será o binômio negativo. Leia a seção Distribuições de frequência de The R Book
. Ele lida com um problema muito semelhante.
Eu acho que o ponto principal é o que o sidmaestro levanta ... a configuração experimental ou o mecanismo de geração de dados suportam a premissa de que os dados podem surgir de uma distribuição de Poisson.
Não sou muito fã de testes de suposições distributivas, pois esses testes geralmente não são muito úteis. O que me parece mais útil é fazer suposições distributivas ou de modelo flexíveis e razoavelmente robustas a desvios do modelo, normalmente para fins de inferência. Na minha experiência, não é tão comum ver média = variância; muitas vezes o modelo binomial negativo parece mais apropriado e inclui o Poisson como um caso especial.
Outro ponto importante para os testes de distribuição, se é isso que você quer fazer, é garantir que não haja estratos envolvidos que tornariam sua distribuição observada uma mistura de outras distribuições. Distribuições individuais específicas do estrato podem aparecer Poisson, mas a mistura observada pode não ser. Uma situação análoga a partir da regressão assume apenas que a distribuição condicional de Y | X é normalmente distribuída, e não realmente a distribuição de Y em si.
Ainda outra maneira de testar isso é com um gráfico quantil quantil. Em R, há qqplot. Isso representa diretamente seus valores contra uma distribuição normal com média e sd semelhantes