Mudar de Modelar um processo usando uma distribuição Poisson para usar uma distribuição binomial negativa?


24

Temos um processo aleatório que pode-ou-pode-não ocorrer várias vezes num período de tempo . Temos um feed de dados de um modelo preexistente desse processo, que fornece a probabilidade de vários eventos ocorrerem no período . Esse modelo existente é antigo e precisamos executar verificações ativas nos dados de feed para detectar erros de estimativa. O modelo antigo que produz o feed de dados (que fornece a probabilidade de eventos ocorrerem no tempo restante ) é aproximadamente distribuído por Poisson.0 t < T n tT0 0t<Tnt

Então, para verificar a existência de anomalias / erros, deixamos ser o tempo restante e ser o número total de eventos para ocorrer no tempo restante . O modelo antigo implica as estimativas . Portanto, sob nossa suposição , temos: Para derivar nossa taxa de eventos da saída do modelo antigo (observações ), usamos uma abordagem de espaço de estados e relação de estado como: X t t P ( X tc ) X t isson Poisson ( λ t ) P ( X tc ) = e - λ c k = 0 λ k ttXttP(Xtc)XtPoisson(λt)λ t y t y t = λ t + ε t

P(Xtc)=e-λk=0 0cλtkk!.
λtyt
yt=λt+εt(εtN(0 0,Ht)).
Nós filtramos as observações do modelo antigo, usando um modelo de espaço de estado [decaimento da velocidade constante] para a evolução do λt para obter o estado filtrado E(λt|Yt) e sinalizamos uma anomalia / erro na frequência estimada de eventos de os dados de alimentação se E(λt|Yt)<yt .

Essa abordagem funciona extraordinariamente bem na detecção de erros nas contagens estimadas de eventos durante o período de tempo inteiro T , mas não tão bem se queremos fazer o mesmo por outro período 0 0t<σ where σ<23T . Para contornar isso, decidimos que agora queremos mudar para usar a distribuição Binomial Negativa, de modo que assumimos agora XtNB(r,p) e tenhamos:

P(Xtc)=prk=0 0c(1-p)k(k+r-1r-1),
em que o parâmetro λ é agora substituída por r e p. Isso deve ser fácil de implementar, mas estou tendo algumas dificuldades com a interpretação e, portanto, tenho algumas perguntas que gostaria que você ajudasse:

1. Podemos apenas definir p=λ na distribuição binomial negativa? Se não, por que não?

2. Supondo que possamos definir p=f(λ) onde f é alguma função, como podemos definir corretamente r (precisamos ajustar r usando conjuntos de dados anteriores)?

3. Is r dependente do número de eventos que esperamos ocorrer durante um determinado processo?


Adenda à extração de estimativas para r ( p ):

Estou ciente de que, se de fato tivéssemos esse problema revertido, e tivéssemos as contagens de eventos para cada processo, poderíamos adotar o estimador de probabilidade máxima de Para encontrar o máximo que usamos as derivadas parciais em relação a Esta equação não pode ser resolvida para r em forma fechada usando Newton ou mesmo EM. No entanto, este não é o caso nesta situação. Embora pudéssemosp N k 1 , k 2 , , k N L ( r , p ) = N i = 1 P ( k i ; r , p ) , Γ ( r ) ) + N i = 1r e . Obviamente, o estimador de probabilidade máxima só existe para amostras para as quais a variação da amostra é maior que a média da amostra, mas se esse fosse o caso, poderíamos definir a função de probabilidade para observações independentes distribuídas de forma idêntica como: partir da qual podemos escrever a função de probabilidade de log como: pNk1,k2,...,kN

eu(r,p)=Eu=1NP(kEu;r,p),
eu(r,p)=Eu=1Nem(Γ(kEu+r))-Eu=1Nem(kEu!)-Nem(Γ(r))+Eu=1NkEuem(p)+Nrem(1-p).
r e e configurá-los igual a zero: Configurando e definindo encontramos: prl(R,
reu(r,p)=Eu=1Nψ(kEu+r)-Nψ(r)+Nem(1-p),peu(r,p)=Eu=1NkEu1p-Nr11-p.
reu(r,p)=peu(r,p)=0 0p=Eu=1NkEu(Nr+Eu=1NkEu),
reu(r,p)=Eu=1Nψ(kEu+r)-Nψ(r)+Nem(rr+Eu=1NkEuN)=0
usar os dados passados para obter uma estática e isso não é realmente qualquer uso como para o nosso processo, é preciso adaptar esses parâmetros no tempo, como fizemos usando Poisson. rp

1
Por que não apenas conectar seus dados a um modelo de regressão de Poisson ou Binomial Negativo?
StatsStudent 17/02

1
Eu não sinto que deveria ter para ser usado. Tendo em mente que Poisson é o caso limitante do Binomial Negativo, deve haver alguma maneira de parametrizar esse problema da mesma maneira que eu fiz para Poisson. Além disso, esse processo ocorre simultaneamente para milhares de processos diferentes e nenhum deles tem a mesma "taxa de eventos", o que significa que a análise de regressão para esses parâmetros teria que ser feita a cada nova observação para todos os processos ativos. Isso não é viável. Muito obrigado por ter tempo para ler a minha pergunta e comentário, ele é mais apreciada ...
Cavaleiro da Lua

1
(Xt|λt,rt,gt)PoEus(λtgt)(gt|rt)Gumammuma(rt,rt)E(gt)=1vumar(gt)=rt-1gt

Essa é uma grande ajuda, mas você consegue aprofundar um pouco mais e fornecer alguns detalhes explícitos? Muito obrigado pelo seu tempo ...
MoonKnight 24/16

1
Que tal usar o binômio em vez do negativo? Isso pode ser mais fácil de fazer. Anscombe FJ. A transformação dos dados de Poisson, binomial e binomial negativo. Biometrika. 1948; 35: 246-54.
Carl

Respostas:


1

A distribuição binomial negativa é muito semelhante ao modelo de probabilidade binomial. é aplicável quando as seguintes premissas (condições) são válidas 1) Qualquer experimento é realizado sob as mesmas condições até que um número fixo de sucessos, digamos C, seja alcançado 2) O resultado de cada experimento pode ser classificado em uma das duas categorias , sucesso ou fracasso 3) A probabilidade P de sucesso é a mesma para cada experimento 40.Cada experimento é independente de todos os outros. A primeira condição é o único fator de diferenciação chave entre binomial e binomial negativo


0

A distribuição de poisson pode ser uma aproximação razoável do binômio sob certas condições, como 1) A probabilidade de sucesso de cada tentativa é muito pequena. P -> 0 2) np = m (digamos) é finito A regra mais usada pelos estatísticos é que o poisson é uma boa aproximação do binômio quando n for igual ou maior que 20 ep for igual ou menor que 5 %

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.