Temos um processo aleatório que pode-ou-pode-não ocorrer várias vezes num período de tempo . Temos um feed de dados de um modelo preexistente desse processo, que fornece a probabilidade de vários eventos ocorrerem no período . Esse modelo existente é antigo e precisamos executar verificações ativas nos dados de feed para detectar erros de estimativa. O modelo antigo que produz o feed de dados (que fornece a probabilidade de eventos ocorrerem no tempo restante ) é aproximadamente distribuído por Poisson.0 ≤ t < T n t
Então, para verificar a existência de anomalias / erros, deixamos ser o tempo restante e ser o número total de eventos para ocorrer no tempo restante . O modelo antigo implica as estimativas . Portanto, sob nossa suposição , temos: Para derivar nossa taxa de eventos da saída do modelo antigo (observações ), usamos uma abordagem de espaço de estados e relação de estado como: X t t P ( X t ≤ c ) X t isson Poisson ( λ t ) P ( X t ≤ c ) = e - λ c ∑ k = 0 λ k tλ t y t y t = λ t + ε t
Essa abordagem funciona extraordinariamente bem na detecção de erros nas contagens estimadas de eventos durante o período de tempo inteiro , mas não tão bem se queremos fazer o mesmo por outro período where . Para contornar isso, decidimos que agora queremos mudar para usar a distribuição Binomial Negativa, de modo que assumimos agora e tenhamos:
1. Podemos apenas definir na distribuição binomial negativa? Se não, por que não?
2. Supondo que possamos definir onde é alguma função, como podemos definir corretamente (precisamos ajustar usando conjuntos de dados anteriores)?
3. Is dependente do número de eventos que esperamos ocorrer durante um determinado processo?
Adenda à extração de estimativas para ( ):
Estou ciente de que, se de fato tivéssemos esse problema revertido, e tivéssemos as contagens de eventos para cada processo, poderíamos adotar o estimador de probabilidade máxima de Para encontrar o máximo que usamos as derivadas parciais em relação a Esta equação não pode ser resolvida para r em forma fechada usando Newton ou mesmo EM. No entanto, este não é o caso nesta situação. Embora pudéssemosp N k 1 , k 2 , … , k N L ( r , p ) = N ∏ i = 1 P ( k i ; r , p ) , Γ ( r ) ) + N ∑ i = 1 e . Obviamente, o estimador de probabilidade máxima só existe para amostras para as quais a variação da amostra é maior que a média da amostra, mas se esse fosse o caso, poderíamos definir a função de probabilidade para observações independentes distribuídas de forma idêntica como: partir da qual podemos escrever a função de probabilidade de log como: