Estimando a probabilidade em um processo de Bernoulli por amostragem até 10 falhas: é tendenciosa?

15

Suponha que tenhamos um processo de Bernoulli com probabilidade de falha (que será pequena, digamos, ) a partir da qual coletamos amostras até encontrar falhas. Assim, estimamos a probabilidade de falha como que é o número de amostras. $q$ $q \leq 0.01$ $10$ $\hat{q}:=10/N$ $N$

Pergunta : $\hat{q}$ uma estimativa parcial de $q$ ? E, se sim, existe uma maneira de corrigi-lo?

Estou preocupado que insistir na última amostra é uma falha que influencia a estimativa.

estimation bernoulli-distribution

— becky
fonte

5

As respostas atuais param de fornecer o estimador imparcial de variância mínima . Veja a seção amostragem e estimativa de pontos do artigo da Wikipedia sobre a distribuição binomial negativa .

(10 - 1) / (N - 1)

$(10-1)/(N-1)$

— A. Webb

10

É verdade que é uma estimativa tendenciosa de no sentido em que , mas você não deve necessariamente deixar isso impedir você. Esse cenário exato pode ser usado como uma crítica contra a ideia de que devemos sempre usar estimadores imparciais, porque aqui o viés é mais um artefato do experimento específico que estamos realizando. Os dados parecem exatamente como teriam se tivéssemos escolhido o número de amostras com antecedência, então por que nossas inferências devem mudar? $\hat{q}$ $q$ $\text{E}(\hat{q}) \neq q$

Curiosamente, se você coletar dados dessa maneira e depois anotar a função de probabilidade nos modelos binomial (tamanho fixo da amostra) e binomial negativo, você descobrirá que os dois são proporcionais entre si. Isso significa que é apenas a estimativa de probabilidade máxima comum no modelo binomial negativo, o que obviamente é uma estimativa perfeitamente razoável. $\hat{q}$

— dsaxton
fonte

Ótimo! Parece (para meus propósitos) que esse viés não é um problema.

— Becky

9

Não está insistindo que a última amostra é uma falha que influencia a estimativa, está assumindo o recíproco de $N$

Então no seu exemplo, mas $\mathbb{E}\left[\frac{N}{10}\right] =\frac{1}{q}$ . Isso está próximo de comparar a média aritmética com a média harmônica $\mathbb{E}\left[\frac{10}{N}\right] \not = q$

A má notícia é que o viés pode aumentar à medida que diminui, embora não muito depois que já é pequeno. A boa notícia é que o viés diminui à medida que o número necessário de falhas aumenta. Parece que se você precisar de falhas de , o viés é delimitado acima por um fator multiplicativo de $q$ $q$ $f$ parapequeno; você não deseja essa abordagem quando parar após a primeira falha $\frac{f}{f-1}$ $q$

Parando após falhas, com você obterá $10$ $q=0.01$ mas $\mathbb{E}\left[\frac{N}{10}\right] = 100$ , enquanto que comvocê obterá $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.011097$ $q=0.001$ mas $\mathbb{E}\left[\frac{N}{10}\right] = 1000$ . Um viés de aproximadamente $\mathbb{E}\left[\frac{10}{N}\right] \approx 0.001111$ fator multiplicativo $\frac{10}{9}$

— Henry
fonte

7

Como um complemento à resposta do dsaxton, aqui são algumas simulações em R que mostram a distribuição de amostragem de quando e : $\hat{q}$ $k=10$ $q_0 = 0.02$

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Parece que , que é um pequeno viés em relação à variabilidade em . $\mathbb{E}\left[ \hat{q}\right] \approx 0.022$ $\hat{q}$

— Adrian
fonte

11

Isso é realmente útil. Nesse nível, não vale a pena me preocupar.

— Becky

2

Você pode escrever esta simulação de forma mais concisa como10+rnbinom(10000,10,0.02)

— A. Webb

@ A.Webb obrigado, esse é um bom ponto. Eu realmente estava reinventando a roda. Eu preciso ler? Rnbinom e depois vou editar meu post

— Adrian

11

Isso seria 10/(10+rnbinom(10000,10,0.02)). A parametrização é em termos de número de sucessos / falhas em vez do número total de tentativas; portanto, você terá que adicionar k = 10 de volta. Observe que o estimador imparcial seria 9/(9+rnbinom(10000,10,0.02)), um a menos em numerador e denominador.

— A. Webb