Vou tentar uma resposta, mesmo que não esteja completamente claro sobre a situação. As fórmulas terão que ser adaptadas! O problema de estimativa de na distribuição binomial é antigo e existem vários trabalhos relevantes. Vou dar algumas referências no final. N
Haja regiões (no exemplo OP ), com amostras (de intervalos de tempo separados de igual comprimento) de cada região. As variáveis observadas são que são variáveis aleatórias binomiais independentes, cada uma com a distribuição ambas desconhecidas. A função de probabilidade de log se torna
Observe que, no problema usual quando é conhecido, de modo que apenas é desconhecido, a soma (ou a média) do binômio contaRR=2TxitBin(Ni,p)ℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit)
Nipxité um resumo suficiente; portanto, a análise pode ser feita em termos da distribuição binomial da soma. No nosso problema, no entanto, devido ao primeiro termo na função de probabilidade de log, esse não é o caso, e a probabilidade de log depende de cada uma das contagens individualmente! Então, o que você propõe, reduzir à soma das contagens (acima de ), NÃO DEVE SER FEITO, pois isso perderá informações (quanto, eu não sei, mas isso pode ser investigado ...). Vamos tentar entender isso um pouco melhor. Primeiro, vemos abaixo que é um estimador consistente deimaxt(xit)Ni, mas esse estimador consistente não é uma função das contagens somadas. Essa é uma indicação clara de que a soma perde informações! Note-se também que a média é um estimador imparcial de sua expectativa de que é , mas não parece informações hold sobre e individualmente, quando nada se sabe sobre o outro parâmetro. Isso indica que, se houver informações úteis sobre na função de probabilidade, devem estar contidas na propagação dos valoresNipNipNixi1…,xiT, novamente indicando que o somatório está ruim. O artigo de Olkin e cols., Mencionado abaixo, mostra de fato que o estimador do método dos momentos em muitos casos é melhor que a probabilidade máxima! e que usa a variação empírica de , portanto não pôde ser calculado a partir dos dados somados.xi1…,xiT
Esse problema é conhecido por ser instável. Vamos tentar entender o porquê. No problema usual, estimando quando conhecido, a estimativa pode ser feita a partir de alguma característica grosseira dos dados, a média. Ao tentar estimar e , usamos propriedades muito mais refinadas da função de probabilidade de log (portanto, dos dados). Para entender por que, lembre-se de que podemos obter a distribuição de Poisson como um limite do binômio quando for zero e cresce sem limites, com um produto positivo constante. Então, se é pequeno epNiNippNpNgrande, a distribuição binomial será bastante próxima desse limite. Tome dois casos: (A) , (B) . Desenhe histogramas para as duas distribuições (binomiais):N=100,p=0.01N=20,p=0.05
> zapsmall(cbind(0:20,pA,pB))
pA pB
[1,] 0 0.366032 0.358486
[2,] 1 0.369730 0.377354
[3,] 2 0.184865 0.188677
[4,] 3 0.060999 0.059582
[5,] 4 0.014942 0.013328
[6,] 5 0.002898 0.002245
[7,] 6 0.000463 0.000295
[8,] 7 0.000063 0.000031
[9,] 8 0.000007 0.000003
[10,] 9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000
Acima de uma tabela com essas probabilidades. Para detectar, a partir dos dados observados, quais dessas duas distribuições são necessárias, é necessário decidir, nesse caso, se ou se . É obviamente bastante difícil, e a instabilidade dos estimadores resultantes é apenas esperada. Este exemplo também indicou que a instabilidade é principalmente para pequenos . Você diz que espera torno de 0,7, então o problema pode ser mais estável. Você pode investigar isso para seus dados, localizando o estimador de probabilidade máxima em função de um conhecido e plotando-o paraN=100N=20ppppem algum intervalo de confiança. Ou você pode entrar em contato com Bayes, esse é um caso em que mesmo algumas informações anteriores bastante vagas podem ser úteis.
Os parâmetros são realmente estimados. É claro que , por isso é possível usar essa contagem máxima como um estimador de . Esse estimador será fortemente consistente e um parâmetro com um estimador consistente deve ser estimado. Mas, como mostra o exemplo acima, a estimativa é quase uma formalidade; na prática, distribuições com muito diferente são muito próximas, portanto é muito fracamente estimado.Ni≥maxt(xit)NNN
Não vou dar detalhes dos métodos de estimativa aqui, mas algumas referências que você pode conferir:
Ingram Olkin, John Petkau, James V Zidek: Uma comparação dos estimadores de N para a Distribuição Binomial. JASA 1981. Este é um artigo clássico que desenvolve e analisa ML e estimadores de momento, e algumas variantes mais estáveis. Também mostra, curiosamente, que em muitos casos o estimador de método de momentos é melhor que o estimador de ML!
Raymond J Carrol e F Lombard: Uma nota sobre N estimadores para a distribuição binomial. JASA 1985.
Desenvolve um estimador alternativo, mais estável e talvez melhor, baseado na integração de fora da probabilidade. Também observa a falta de suficiência das contagens somadas.p
J Andrew Royle: N_Mixture Models para estimar o tamanho da população a partir de contagens espacialmente replicadas. Biometrics, 2004. Isso fornece outra abordagem bayesiana alternativa que você pode tentar.
Voltar à sua pergunta concreta. Você não deve somar as contagens em suas duas regiões! Isso perderá informações. Se você introduzir , a função de probabilidade do log poderá ser escrita como uma função de , e (ou ). Em seguida, o parâmetro extra deve ser eliminado por algum procedimento. Voltarei a isso, mas não, não há tempo! N=N1+N2NpN1N2N1