Compreendendo os parâmetros dentro da distribuição binomial negativa

37

Eu estava tentando ajustar meus dados em vários modelos e descobri que a fitdistrfunção da biblioteca MASSde Rme dá Negative Binomialo melhor ajuste. Agora, na página da wiki , a definição é dada como:

A distribuição NegBin (r, p) descreve a probabilidade de k falhas er sucessos em ensaios k + r Bernoulli (p) com êxito no último ensaio.

Usar Rpara realizar o ajuste do modelo me dá dois parâmetros meane dispersion parameter. Não estou entendendo como interpretá-los porque não consigo ver esses parâmetros na página da wiki. Tudo o que posso ver é a seguinte fórmula:

Fórmula de distribuição binomial negativa

Onde ké o número de observações e r=0...n. Agora, como eu os relaciono com os parâmetros dados por R? O arquivo de ajuda também não fornece muitas informações.

Além disso, apenas para dizer algumas palavras sobre o meu experimento: em um experimento social que eu estava realizando, eu estava tentando contar o número de pessoas que cada usuário contatou em um período de 10 dias. O tamanho da população foi de 100 para o experimento.

Agora, se o modelo se encaixa no Binomial Negativo, posso dizer cegamente que segue essa distribuição, mas realmente quero entender o significado intuitivo por trás disso. O que significa dizer que o número de pessoas contatadas pelos meus sujeitos de teste segue uma distribuição binomial negativa? Alguém pode ajudar a esclarecer isso?

r distributions modeling negative-binomial

— lenda
fonte

42

Você deve olhar mais abaixo no artigo da Wikipedia no NB , onde se lê "mistura gama-Poisson". Enquanto a definição que você cita (que eu chamo de definição de "lançamento de moeda", já que normalmente a defino para classes como "suponha que você queira jogar uma moeda até obter $k$ cabeças ") é mais fácil de derivar e faz mais sentido em um contexto introdutório de probabilidade ou estatística matemática, a mistura gama-Poisson é (na minha experiência) uma maneira muito mais útil de pensar sobre a distribuição em contextos aplicados. (Em particular, essa definição permite valores não inteiros do parâmetro dispersão / tamanho.) Nesse contexto, seu parâmetro de dispersão descreve a distribuição de uma distribuição gama hipotética subjacente aos seus dados e descreve variações não observadas entre indivíduos em seu nível intrínseco de contato. é o parâmetro de forma do Gamma, e pode ser útil pensar nisso para saber que o coeficiente de variação de uma distribuição Gamma com o parâmetro de forma é ; $\theta$ $1/\sqrt{\theta}$ $\theta$ se torna grande a variabilidade latente desaparece e a distribuição se aproxima do Poisson.

— Ben Bolker
fonte

7

Hmm. Eu me pergunto por que o voto negativo?

— Ben Bolker 11/08

A formulação NB (média, dispersão) também é descrita na seção de formulações alternativas ( en.wikipedia.org/wiki/… ) agora nessa página da wiki.

— mt1022

10

Como mencionei no meu post anterior, estou trabalhando para ajustar minha distribuição para contar dados também. Aqui está o que eu aprendi:

Quando a variância é maior que a média, a sobredispersão é evidente e, portanto, a distribuição binomial negativa é provavelmente apropriada. Se a variação e a média forem iguais, a distribuição de Poisson é sugerida e, quando a variação for menor que a média, é recomendada a distribuição binomial.

Com os dados de contagem nos quais você está trabalhando, você está usando a parametrização "ecológica" da função Binomial Negativa na R. A Seção 4.5.1.3 (Página 165) do livro a seguir disponível gratuitamente fala sobre isso especificamente (no contexto de R, não menos!) e, espero, possa abordar algumas de suas perguntas:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Se você concluir que seus dados são truncados zero (ou seja, a probabilidade de 0 observações é 0), convém verificar o sabor truncado zero do NBD que está no pacote R VGAM .

Aqui está um exemplo de sua aplicação:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Espero que isto seja útil.

— Jeff Tyzzer
fonte

Página 165 do livro.

— SmallChess