Estimando parâmetros para um binômio

Antes de mais, gostaria de precisar que não sou especialista no assunto.

Suponha que duas variáveis aleatórias e sejam binomiais, respectivamente e observe aqui que é o mesmo. Eu sei que $X$ $Y$ $X\sim B(n_1,p)$ $Y\sim B(n_2,p),$ $p$ $Z=X+Y \sim B(n_1+n_2,p).$

Vamos ser uma amostra para e ser uma amostra de , existe um método padrão para estimar e ? $\{x_1,\ldots,x_k\}$ $X$ $\{y_1,\ldots,y_k\}$ $Y$ $n=n_1+n_2$ $p$

Isto é o que fizemos:

pegue a "nova amostra" para $Z$ fornecida por $\{x_1+y_1,\ldots, x_k+y_k\}$ ,
usando o estimador de verossimilhança, obtemos estimativas para $n$ e $p$ ,
com as informações de Fisher, tentamos entender os erros sobre $n$ e $p$ .

O método parece funcionar, mas ainda temos algumas dúvidas. Deixe $S_k$ o grupo de permutação sobre $k$ elementos. Para cada $\sigma\in S_k$ , podemos considerar a "amostra" fornecida por $\{x_1+y_{\sigma(1)},\dots, x_k+y_{\sigma(k)}\}.$ Aplicando o estimador de verossimilhança para cada uma das "novas amostras" (existem $k!$ Somas diferentes), obtemos estimativas diferentes $(n_\sigma,p_\sigma)$ para $n$ e $p$ .

Qual o significado disso? Como os novos valores $n_\sigma, p_\sigma$ são correlacionados? Pode ser usado para calcular o erro para $n$ ?

Alguns comentários: A questão foi postada anteriormente aqui , mas um usuário sugere que eu use o tats / crossvalidated SE.

No exemplo que tenho em mente, é o número de aves em uma determinada região a probabilidade de visibilidade. Preciso agregar regiões com similar , caso contrário, os dados são muito pequenos. Em particular, eu preciso, se possível, de uma estimativa apenas para , onde a priori é desconhecido $n$ $p$ $p$ $n$ $p$

Um exemplo Para ser claro e em vista da resposta de kjetil b halvorsen, tentarei colocar aqui um exemplo prático. Suponha que temos apenas uma região dividida em duas zonas com probabilidade igual a um fixo e nossos dados são os seguintes: $p$

Zone 1   Zone 2
  a1      b1
  a2      b2
  a3      b3
  a4      b4
  a5      b5
  a6      b6

Podemos então considerar o seguinte:

Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
   c4
   c5
   c6

Em seguida, podemos usar o método de probabilidade de log para estimar também onde é o parâmetro para o binômio das variáveis observadas na Zona . Está certo? $N_1+N_2$ $p$ $N_i$ $i$

Agora, eu sei que o método da probabilidade não é estável (para mim estável significa apenas bom). Podemos usar as informações de Fisher? Se sim, que tipo de informação podemos ter?

Finalmente, be e duas permutações sobre elementos (existem pares diferentes) do que podemos considerar os novos dados dados por $\sigma$ $\tau$ $6$ $(6!)^2$

Zona 1 + 2
c1 = a + b c2 = a + b c3 = a + b c4 = a + b c5 = a + b c6 = a + b $\sigma(1)$ $\tau(1)$
$\sigma(2)$ $\tau(2)$
$\sigma(3)$ $\tau(3)$
$\sigma(4)$ $\tau(4)$
$\sigma(5)$ $\tau(5)$
$\sigma(6)$ $\tau(6)$

Refazendo o método da verossimilhança, com essas novas variáveis, obtemos diferentes estimativas para . $N_1+N_2$

Portanto, a pergunta é: o conjunto de estimativas me fornece algumas informações sobre os erros?

— amorvincomni
fonte

Você deve dar mais detalhes. Quantas regiões você deseja usar (suponha que tenha o mesmo parâmetro de visibilidade ? (O Q assume duas))? Quantas amostras você tem para cada região? (Suponho que esses são contagem em intervalos de tempo disjuntos de igual comprimento?) Uma vez que o seu parâmetro de interesse é e a aproximação da soma deles não pode ser correto! voltará quando você tiver respondido ...

p

$p$

n_{1}

$n_1$

n_{2}

$n_2$

— kjetil b halvorsen

@kjetilbhalvorsen: O número de regiões no meu Q é e tenho 6 amostras para cada região. As contagens ultrapassam intervalos de comprimento igual (mas é considerado constante). Estou interessado em e não no único . Espero que isso possa ajudar.

2

$2$

n_{i}

$n_i$

n_{1} + n_{2}

$n_1+n_2$

n_{i}

$n_i$

— amorvincomni

Outra pergunta: Qual o tamanho (aproximadamente) das contagens? Nas dezenas? centenas? milhares? Você tem alguma idéia sobre os prováveis valores de ? Muito baixo? (Se as contagens são maiores, então talvez possamos tentar uma aproximação poisson?

p

$p$

— b Kjetil Halvorsen

Tentei agregar contagens porque os números eram baixos. Na realidade, tenho 5 zonas diferentes (uma zona corresponde a regiões com a mesma probabilidade.) Em cada zona, tenho algo como regiões. As várias contagens variam de a (o parece não estar relacionado e pode variar de a algo mais que ). Mas os dados agregados podem variar da permutação que escolhemos. (Por exemplo, em uma zona de regiões com contagens para cada região, existem agregações diferentes). Finalmente, parece estar próximo de .

15

$15$

0

$0$

25

$25$

n_{i}

$n_i$

0

$0$

25

$25$

10

$10$

6

$6$

(6!)^{10}

$(6!)^{10}$

p

$p$

.7

$.7$

— amorvincomni

Você provavelmente também se beneficiará muito de ter informações preliminares, pois existe um problema de identificação entre n e p.

— 223 Arthur Arthur

Vou tentar uma resposta, mesmo que não esteja completamente claro sobre a situação. As fórmulas terão que ser adaptadas! O problema de estimativa de na distribuição binomial é antigo e existem vários trabalhos relevantes. Vou dar algumas referências no final. $N$

Haja regiões (no exemplo OP ), com amostras (de intervalos de tempo separados de igual comprimento) de cada região. As variáveis observadas são que são variáveis aleatórias binomiais independentes, cada uma com a distribuição ambas desconhecidas. A função de probabilidade de log se torna Observe que, no problema usual quando é conhecido, de modo que apenas é desconhecido, a soma (ou a média) do binômio conta $R$ $R=2$ $T$ $x_{it}$ $\text{Bin}(N_i,p)$

ℓ (N_{i}, p) = \sum \ln (\binom{N_{i}}{x_{i t}}) + \ln p \cdot \sum x_{i t} + \ln (1 - p) \cdot \sum (N_{i} - x_{i t})

$\ell ( N_i , p ) = \sum \ln \binom{N_i}{x_{it}} + \ln p \cdot \sum x_{it} + \ln (1-p) \cdot \sum ( N_i - x_{it} )$

N_{i}

$N_i$

p

$p$

x_{i t}

$x_{it}$ é um resumo suficiente; portanto, a análise pode ser feita em termos da distribuição binomial da soma. No nosso problema, no entanto, devido ao primeiro termo na função de probabilidade de log, esse não é o caso, e a probabilidade de log depende de cada uma das contagens individualmente! Então, o que você propõe, reduzir à soma das contagens (acima de ), NÃO DEVE SER FEITO, pois isso perderá informações (quanto, eu não sei, mas isso pode ser investigado ...). Vamos tentar entender isso um pouco melhor. Primeiro, vemos abaixo que é um estimador consistente de

i

$i$

max_{t} (x_{i t})

$\max_t(x_{it})$

N_{i}

$N_i$ , mas esse estimador consistente não é uma função das contagens somadas. Essa é uma indicação clara de que a soma perde informações! Note-se também que a média é um estimador imparcial de sua expectativa de que é , mas não parece informações hold sobre e individualmente, quando nada se sabe sobre o outro parâmetro. Isso indica que, se houver informações úteis sobre na função de probabilidade, devem estar contidas na propagação dos valores

N_{i} p

$N_i p$

N_{i}

$N_i$

p

$p$

N_{i}

$N_i$

x_{i 1} \dots, x_{i T}

$x_{i1}\dots, x_{iT}$ , novamente indicando que o somatório está ruim. O artigo de Olkin e cols., Mencionado abaixo, mostra de fato que o estimador do método dos momentos em muitos casos é melhor que a probabilidade máxima! e que usa a variação empírica de , portanto não pôde ser calculado a partir dos dados somados.

x_{i 1} \dots, x_{i T}

$x_{i1}\dots, x_{iT}$

Esse problema é conhecido por ser instável. Vamos tentar entender o porquê. No problema usual, estimando quando conhecido, a estimativa pode ser feita a partir de alguma característica grosseira dos dados, a média. Ao tentar estimar e , usamos propriedades muito mais refinadas da função de probabilidade de log (portanto, dos dados). Para entender por que, lembre-se de que podemos obter a distribuição de Poisson como um limite do binômio quando for zero e cresce sem limites, com um produto positivo constante. Então, se é pequeno e $p$ $N_i$ $N_i$ $p$ $p$ $N$ $p$ $N$ grande, a distribuição binomial será bastante próxima desse limite. Tome dois casos: (A) , (B) . Desenhe histogramas para as duas distribuições (binomiais): $N=100, p=0.01$ $N=20, p=0.05$

> zapsmall(cbind(0:20,pA,pB))
               pA       pB
 [1,]  0 0.366032 0.358486
 [2,]  1 0.369730 0.377354
 [3,]  2 0.184865 0.188677
 [4,]  3 0.060999 0.059582
 [5,]  4 0.014942 0.013328
 [6,]  5 0.002898 0.002245
 [7,]  6 0.000463 0.000295
 [8,]  7 0.000063 0.000031
 [9,]  8 0.000007 0.000003
[10,]  9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000

Acima de uma tabela com essas probabilidades. Para detectar, a partir dos dados observados, quais dessas duas distribuições são necessárias, é necessário decidir, nesse caso, se ou se . É obviamente bastante difícil, e a instabilidade dos estimadores resultantes é apenas esperada. Este exemplo também indicou que a instabilidade é principalmente para pequenos . Você diz que espera torno de 0,7, então o problema pode ser mais estável. Você pode investigar isso para seus dados, localizando o estimador de probabilidade máxima em função de um conhecido e plotando-o para $N=100$ $N=20$ $p$ $p$ $p$ $p$ em algum intervalo de confiança. Ou você pode entrar em contato com Bayes, esse é um caso em que mesmo algumas informações anteriores bastante vagas podem ser úteis.

Os parâmetros são realmente estimados. É claro que , por isso é possível usar essa contagem máxima como um estimador de . Esse estimador será fortemente consistente e um parâmetro com um estimador consistente deve ser estimado. Mas, como mostra o exemplo acima, a estimativa é quase uma formalidade; na prática, distribuições com muito diferente são muito próximas, portanto é muito fracamente estimado. $N_i \ge \max_t(x_{it})$ $N$ $N$ $N$

Não vou dar detalhes dos métodos de estimativa aqui, mas algumas referências que você pode conferir:

Ingram Olkin, John Petkau, James V Zidek: Uma comparação dos estimadores de N para a Distribuição Binomial. JASA 1981. Este é um artigo clássico que desenvolve e analisa ML e estimadores de momento, e algumas variantes mais estáveis. Também mostra, curiosamente, que em muitos casos o estimador de método de momentos é melhor que o estimador de ML!

Raymond J Carrol e F Lombard: Uma nota sobre N estimadores para a distribuição binomial. JASA 1985.
Desenvolve um estimador alternativo, mais estável e talvez melhor, baseado na integração de fora da probabilidade. Também observa a falta de suficiência das contagens somadas. $p$

J Andrew Royle: N_Mixture Models para estimar o tamanho da população a partir de contagens espacialmente replicadas. Biometrics, 2004. Isso fornece outra abordagem bayesiana alternativa que você pode tentar.

Voltar à sua pergunta concreta. Você não deve somar as contagens em suas duas regiões! Isso perderá informações. Se você introduzir , a função de probabilidade do log poderá ser escrita como uma função de , e (ou ). Em seguida, o parâmetro extra deve ser eliminado por algum procedimento. Voltarei a isso, mas não, não há tempo! $N=N_1 + N_2$ $N$ $p$ $N_1$ $N_2$ $N_1$

— kjetil b halvorsen
fonte

Obrigado pela sua resposta, infelizmente não posso votar. Me desculpe se não estava claro, mas para a soma quero dizer a soma em diferentes zonas. Fiz uma atualização no meu Q, adicionando um exemplo (teórico) e algumas perguntas talvez mais compreensíveis.

— Amorvincomni 12/11/2014

Apesar desta resposta ser totalmente detalhada, ainda tenho uma dúvida: suponha que eu tenha uma câmera para cada região e suponha que as câmeras estejam em regiões vizinhas (mas sem fluxo). Estou interessado apenas em e não nos valores individuais e . Existe alguma diferença ao tirar apenas uma câmera grande? As variáveis observadas da câmera grande ainda são binômios com o parâmetroO que eu perco (me parece) são apenas informações sobre o comportamento local, mas isso não é importante para mim.

N

$N$

N_{1}

$N_1$

N_{2}

$N_2$

y_{t 1} = x_{t 1} + x_{t 2}

$y_{t1}=x_{t1}+x_{t2}$

N, p .

$N,p.$

— Amorvincomni

Isso não está correto! As informações sobre estão contidas na variação nas contagens individuais!

N

$N$

— b Kjetil Halvorsen