Eu sou um estudante de estatística de doutorado. Estou trabalhando com um conjunto de dados de contagem. É a contagem de usuários envolvidos em uma conversa de bate-papo em tempo real. O número de usuários varia de 1 a 6 e existem aproximadamente 300 dados no conjunto.
Minha motivação inicial era entender se os dados se encaixariam em uma distribuição de Poisson, pensando que, se um bom ajuste fosse encontrado, eu poderia usar esse resultado para obter mais inferência.
Para resumir uma longa história, tentei ajustar os dados e o ajuste falha em um nível de significância de 0,05. Assim, posso rejeitar minha hipótese (que uma distribuição de Poisson pode ser usada para aproximar o conjunto de dados).
Quando olho para um gráfico de densidade, acredito que a razão pela qual existe um ajuste tão ruim é que existem "valores registrados demais para 2 usuários. Uma distribuição Poisson se ajustaria melhor com menos valores nesse escaninho. No entanto, como compilei o eu mesmo não tenho motivos para acreditar que existem discrepâncias (ou seja, conversas com 2 usuários que seriam atribuídas a uma posição superior ou inferior)
users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1,
2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, 1, 1, 2, 2, 1, 3,
2, 1, 2, 3, 2, 1, 2, 1, 2, 1, 1, 3, 1, 1, 1, 2, 2, 2, 3, 1, 2, 1, 2, 4, 4,
3, 2, 2, 3, 4, 3, 3, 3, 1, 2, 4, 2, 3, 3, 2, 4, 3, 1, 2, 4, 1, 2, 2, 2, 1,
1, 1, 2, 3, 2, 4, 5, 2, 2, 4, 2, 2, 3, 3, 3, 2, 2, 3, 1, 3, 1, 1, 1, 2, 3,
6, 3, 3, 4, 2, 2, 2, 3, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 1, 1, 2, 1, 2, 2, 2, 2, 2, 2, 4, 3, 3, 2, 1, 2, 4, 1, 2, 1, 2, 2,
2, 3, 2, 2, 2, 2, 2, 3, 2, 2, 1, 1, 3, 1, 2, 1, 2, 3, 4, 2, 4, 3, 2, 2, 1,
4, 2, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 3, 3, 1, 1, 2, 1, 2, 1, 3, 3, 3, 3,
4, 6, 6, 5, 5, 2, 2, 3, 3, 3, 2, 3, 3, 4, 2, 3, 1, 3, 3, 1, 3, 2, 1, 3, 3,
2, 1, 3, 1, 3, 2, 1, 1, 1, 1, 3, 1, 3, 4, 1, 4, 1, 3, 2, 3, 6, 2, 2, 3, 2,
1, 2, 2, 2, 2, 2, 1, 2, 3, 2, 2, 4, 2, 2, 2, 3, 2, 2, 5, 3, 2, 2, 3, 2, 2,
2, 5, 2, 1, 4, 1, 2, 2, 6, 1, 3, 2)
tu.fit <- goodfit(users,type="poisson", method = "MinChisq")
summary(tu.fit)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 69.37891 5 1.379945e-13
Nas estatísticas do nível de graduação, aprendi que os dados de contagem podem ser modelados por uma distribuição de Poisson, mas eles nunca ensinaram o que fazer quando os dados de contagem não se encaixam.
Não estou vinculado à premissa de que meus dados de contagem devem caber em Poisson (ou em qualquer outra distribuição). No entanto, eu queria explorar a eficácia de transformar meu conjunto de dados e ajustá-lo a outra distribuição discreta ou tentar outra abordagem (KDE). Ou devo simplesmente concluir que meus dados não são adequados para Poisson (ou qualquer outra distribuição) e deixá-los assim?
users-1
quando instalado, é um bom ajuste para uma distribuição de Poisson (que é uma forma de barreira). Suspeito que uma abordagem de bom senso precise ser aplicada ao lidar com dados sub-dispersos.
users-1