Ao discutir as taxas de realização de tarefas, existe uma maneira de mostrar que 0 em 20 tentativas é "pior" que 0 em 10 tentativas?
Ao discutir as taxas de realização de tarefas, existe uma maneira de mostrar que 0 em 20 tentativas é "pior" que 0 em 10 tentativas?
Respostas:
Suponha que sabemos a probabilidade de sucesso em uma tentativa. Nesse caso, calculamos a probabilidade de 0 em 10 e 0 em 20 casos.
No entanto, neste caso, fazemos o contrário. Não sabemos a probabilidade, temos os dados e tentamos estimar a probabilidade.
Quanto mais casos tivermos, mais seguros podemos ter em relação aos resultados. Se eu jogar uma moeda e ela for cara, você não terá certeza de que é dupla. Se eu jogá-lo 1.000 vezes e será tudo cabeça, é improvável que esteja equilibrado.
Existem métodos que foram projetados para considerar o número de trilhas ao fornecer as estimativas. Um deles é a suavização aditiva que o @abukaj comenta acima. Na suavização aditiva, adicionamos pseudo amostras extras em consideração. No nosso caso, ao invés, na trilha que vimos, adicionamos mais duas - uma bem-sucedida e outra falhada.
Observe que a suavização aditiva é apenas um método de estimativa. Você obterá resultados diferentes com métodos diferentes. Mesmo com a suavização aditiva em si, você obteria resultados diferentes se adicionasse 4 pseudo amostras.
Outro método é usar o intervalo de confiança, como sugerido por @mdewey. Quanto mais amostras tivermos, menor será o intervalo de confiança. O tamanho do intervalo de confiança é proporcional à raiz quadrada das amostras - . Portanto, dobrar o número de amostras levará a um intervalo de confiança mais curto.
A média em ambos os casos é 0. É necessário um nível de confiança de 90% (z = 1.645)
Em caso de falta de dados, há incerteza. As suposições feitas e os dados externos que você usará mudarão o que você receberá.
Estendendo a idéia de chamar intervalos de confiança, existe o conceito de um intervalo binomial exato.
A distribuição binomial é a do número total de sucessos em testes independentes que terminam em 0 (falha) ou 1 (sucesso). A probabilidade de obter 1 (sucesso) é tradicionalmente denominada , e seu complemento é . Então o resultado da probabilidade padrão é que a probabilidade de exatamente sucessos em ensaios éq = 1 - p k n
O conceito de intervalo de confiança é vincular um conjunto de valores possíveis dos parâmetros do modelo (aqui, probabilidades de sucesso ), para que possamos fazer declarações probabilísticas (bem, freqüentistas ) sobre se o verdadeiro valor do parâmetro está dentro desse intervalo (ou seja, , que se repetirmos o experimento probabilístico de 10 ou 20 tentativas e construirmos o intervalo de confiança de uma maneira especificada, observaremos que o valor real do parâmetro está dentro do intervalo 95% das vezes).
Nesse caso, podemos resolver nessa fórmula:
Portanto, se quiséssemos um intervalo unilateral de 95%, para resolver a probabilidade de a contagem zero observada ser no máximo 5%. Para , a resposta é (ou seja, no extremo, se a probabilidade de sucesso em cada tentativa for 13,9%, a probabilidade de observar zero sucesso é de 5%). Para , a resposta é . Portanto, a partir de uma amostra de , aprendemos mais do que da amostra de , no sentido de que podemos `` excluir '' o intervalo que a amostra de ainda deixa o mais plausível.
A função de verossimilhança é Bernoulli e a distribuição Beta é um conjugado anterior para a distribuição Bernoulli, portanto, o posterior segue a distribuição Beta. Além disso, o posterior é parametrizado por:
Consequentemente:
Portanto, se você observar 10 falhas, sua expectativa de é e, se você observar 20 falhas, sua expectativa de é . Quanto mais falhas você vê, menor sua expectativa de .
Esse argumento é razoável? Depende de como você se sente em relação às estatísticas bayesianas, se deseja modelar a incerteza sobre algum parâmetro usando a mecânica da probabilidade. E isso depende de quão razoável é sua escolha de um prior.