Interpreto a pergunta da seguinte maneira: suponha que a amostragem tenha sido supostamente realizada como se bilhetes de papel branco fossem colocados em um frasco, cada um rotulado com o nome de uma pessoa, e foram retirados aleatoriamente depois de agitar completamente o conteúdo do frasco. De antemão, dos ingressos eram de cor vermelha. Qual é a chance de exatamente dois dos tickets selecionados serem vermelhos? Qual é a chance de no máximo dois dos ingressos serem vermelhos?232 1236323212
Uma fórmula exata pode ser obtida, mas não precisamos fazer tanto trabalho teórico. Em vez disso, apenas rastreamos as chances quando os ingressos são retirados do pote. Na época deles foram retirados, deixar que a chance de que exatamente bilhetes vermelhos foram vistos ser escrito . Para começar, observe que se (você não pode ter tíquetes vermelhos antes de começar) (é certo que você não possui tíquetes vermelhos desde o início). Agora, no sorteio mais recente, o bilhete estava vermelho ou não. No primeiro caso, anteriormente tivemos a chance de ver exatamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )mEup ( i , m )p ( i , 0 ) = 0i > 0p ( 0 , 0 ) = 1p ( i - 1 , m - 1 )i - 1bilhetes vermelhos. Em seguida, aconteceu depois de puxar um vermelho das restantes bilhetes, tornando-se exatamente vermelho bilhetes até agora. Como assumimos que todos os ingressos têm chances iguais em todas as etapas, nossa chance de desenhar um vermelho dessa maneira foi, portanto, . No outro caso, tivemos a chance de obter exatamente bilhetes vermelhos nos sorteios anteriores , e a chance de não adicionar outro bilhete vermelho à amostra no próximo sorteio foi363 - m + 1Eu( 12 - i + 1 ) / ( 363 - m + 1 )i m - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 )p ( i , m - 1 )Eum - 1( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 ). Daí, usando axiomas básicos de probabilidade (a saber, as chances de dois casos mutuamente exclusivos adicionam e as chances condicionais se multiplicam),
p ( i , m ) = p ( i - 1 , m - 1 ) ( 12 - i + 1 ) + p ( i , m - 1 ) ( 363 - m + 1 - 12 + i )363 - m + 1.
Repetimos esse cálculo recursivamente, estabelecendo uma matriz triangular dos valores de para e . Após um pouco de cálculo obtém-se e , respondendo a ambas as versões da pergunta. Estes são pequenos números: não importa como você o veja, são eventos muito raros (mais raros que um em mil).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314p ( i , m )0 ≤ i ≤ 120 ≤ m ≤ 232p ( 2 , 232 ) ≈ 0,000849884p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314
Como checagem dupla, realizei este exercício com um computador 1.000.000 de vezes. Em 932 = 0,000932 desses experimentos, 2 ou menos tickets vermelhos foram observados. Isso é extremamente próximo do resultado calculado, porque a flutuação da amostra no valor esperado de 934,3 é de cerca de 30 (para cima ou para baixo). Aqui está como a simulação é feita em R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
Desta vez, como os experimentos são aleatórios, os resultados mudaram um pouco: dois ou menos bilhetes vermelhos foram observados em 948 dos milhões de tentativas. Isso ainda é consistente com o resultado teórico.)
A conclusão é que é altamente improvável que dois ou menos dos 232 ingressos sejam vermelhos. Se você realmente tem uma amostra de 232 de 363 pessoas, esse resultado é uma forte indicação de que o modelo tickets-in-a-jar não é uma descrição correta de como a amostra foi obtida. Explicações alternativas incluem (a) os tíquetes vermelhos foram mais difíceis de serem retirados do pote (um "viés" contra eles), bem como (b) os tíquetes foram coloridos após a observação da amostra ( bisbilhotagem post-hoc de dados, o que não indica nenhum viés).
Um exemplo da explicação (b) em ação seria um júri para um julgamento de assassinato notório. Suponha que incluísse 363 pessoas. Fora dessa piscina, o tribunal entrevistou 232 deles. Um repórter de jornal ambicioso revisa meticulosamente o conteúdo de todos na piscina e nota que 12 dos 363 eram apreciadores de peixes dourados, mas apenas dois deles foram entrevistados. O tribunal é tendencioso contra os criadores de peixes dourados? Provavelmente não.