Qual é a probabilidade de n pessoas de uma lista de m pessoas estarem em uma seleção aleatória de x pessoas de uma lista de y pessoas?


10

Se eu estiver selecionando 232 pessoas de um grupo de 363 pessoas sem substituição, qual é a probabilidade de 2 de uma lista de 12 pessoas específicas estar nessa seleção?

Este é um sorteio aleatório para uma corrida ultra, onde havia 363 participantes para 232 vagas. Há uma discussão sobre se a seleção foi tendenciosa contra um determinado grupo de 12 pessoas.

Minha tentativa inicial de calcular isso foi que havia 232 opções possíveis. O número de combinações de qualquer pessoa da lista de doze é 1, escolha 12 + 2, escolha 12 + ... + 11, escolha 12 + 12, escolha 12. Assim, 1 escolha 12 + 2, escolha 12 .... / 232, escolha 363 O que acaba sendo um número muito baixo, claramente baixo demais.

Como faço para calcular isso?


11
Dois pontos técnicos. Primeiro, agora você está lidando com uma probabilidade e não uma probabilidade, já que o resultado é conhecido. Segundo, não importa qual é a probabilidade teórica, dado que você tem um resultado. Eu acho que seria melhor abordar o método usado para a seleção: como as seleções foram escolhidas? Você precisa provar a exatidão do método, não a exatidão do resultado.
317 Michelle

11
Alguém poderia ver isso como uma probabilidade, Michelle, com o objetivo de estimar as probabilidades de seleção. Esse não parece ser o caso aqui.
whuber

Você precisa ter cuidado ao usar o cálculo simples do VR hipergeométrico, pois as 12 pessoas que estão reclamando não são selecionadas aleatoriamente. Eles estão reclamando porque foram não selecionado.
Guy

Respostas:


10

Interpreto a pergunta da seguinte maneira: suponha que a amostragem tenha sido supostamente realizada como se bilhetes de papel branco fossem colocados em um frasco, cada um rotulado com o nome de uma pessoa, e foram retirados aleatoriamente depois de agitar completamente o conteúdo do frasco. De antemão, dos ingressos eram de cor vermelha. Qual é a chance de exatamente dois dos tickets selecionados serem vermelhos? Qual é a chance de no máximo dois dos ingressos serem vermelhos?232 1236323212

Uma fórmula exata pode ser obtida, mas não precisamos fazer tanto trabalho teórico. Em vez disso, apenas rastreamos as chances quando os ingressos são retirados do pote. Na época deles foram retirados, deixar que a chance de que exatamente bilhetes vermelhos foram vistos ser escrito . Para começar, observe que se (você não pode ter tíquetes vermelhos antes de começar) (é certo que você não possui tíquetes vermelhos desde o início). Agora, no sorteio mais recente, o bilhete estava vermelho ou não. No primeiro caso, anteriormente tivemos a chance de ver exatamentei p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )mEup(Eu,m)p(Eu,0 0)=0 0Eu>0 0p(0 0,0 0)=1 1p(Eu-1 1,m-1 1)Eu-1 1bilhetes vermelhos. Em seguida, aconteceu depois de puxar um vermelho das restantes bilhetes, tornando-se exatamente vermelho bilhetes até agora. Como assumimos que todos os ingressos têm chances iguais em todas as etapas, nossa chance de desenhar um vermelho dessa maneira foi, portanto, . No outro caso, tivemos a chance de obter exatamente bilhetes vermelhos nos sorteios anteriores , e a chance de não adicionar outro bilhete vermelho à amostra no próximo sorteio foi363-m+1 1Eu(12-Eu+1 1)/(363-m+1 1)i m - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 )p(Eu,m-1 1)Eum-1 1(363-m+1 1-12+Eu)/(363-m+1 1). Daí, usando axiomas básicos de probabilidade (a saber, as chances de dois casos mutuamente exclusivos adicionam e as chances condicionais se multiplicam),

p(Eu,m)=p(Eu-1 1,m-1 1)(12-Eu+1 1)+p(Eu,m-1 1)(363-m+1 1-12+Eu)363-m+1 1.

Repetimos esse cálculo recursivamente, estabelecendo uma matriz triangular dos valores de para e . Após um pouco de cálculo obtém-se e , respondendo a ambas as versões da pergunta. Estes são pequenos números: não importa como você o veja, são eventos muito raros (mais raros que um em mil).0 i 12 0 m 232 p ( 2 , 232 ) 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) 0,000934314p(Eu,m)0 0Eu120 0m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

Como checagem dupla, realizei este exercício com um computador 1.000.000 de vezes. Em 932 = 0,000932 desses experimentos, 2 ou menos tickets vermelhos foram observados. Isso é extremamente próximo do resultado calculado, porque a flutuação da amostra no valor esperado de 934,3 é de cerca de 30 (para cima ou para baixo). Aqui está como a simulação é feita em R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Desta vez, como os experimentos são aleatórios, os resultados mudaram um pouco: dois ou menos bilhetes vermelhos foram observados em 948 dos milhões de tentativas. Isso ainda é consistente com o resultado teórico.)

A conclusão é que é altamente improvável que dois ou menos dos 232 ingressos sejam vermelhos. Se você realmente tem uma amostra de 232 de 363 pessoas, esse resultado é uma forte indicação de que o modelo tickets-in-a-jar não é uma descrição correta de como a amostra foi obtida. Explicações alternativas incluem (a) os tíquetes vermelhos foram mais difíceis de serem retirados do pote (um "viés" contra eles), bem como (b) os tíquetes foram coloridos após a observação da amostra ( bisbilhotagem post-hoc de dados, o que não indica nenhum viés).

Um exemplo da explicação (b) em ação seria um júri para um julgamento de assassinato notório. Suponha que incluísse 363 pessoas. Fora dessa piscina, o tribunal entrevistou 232 deles. Um repórter de jornal ambicioso revisa meticulosamente o conteúdo de todos na piscina e nota que 12 dos 363 eram apreciadores de peixes dourados, mas apenas dois deles foram entrevistados. O tribunal é tendencioso contra os criadores de peixes dourados? Provavelmente não.


NB Na simulação, não importa que sejam os primeiros 12 "tickets" marcados, porque toda a amostragem é realizada aleatoriamente sem substituição (via sample). De fato, a cada iteração, sampleos tickets são misturados completamente toda vez que é chamado antes de retirar 232 deles.
whuber

2
Meu Deus - esse não era o resultado que eu esperava. Obrigado por seu trabalho completo e boa explicação. (Curiosamente, eu realmente fiz algumas estatísticas de treinamento na Universidade de Auckland, onde R foi desenvolvida)
Sarge

10

@whuber deu uma explicação exaustiva, só quero ressaltar que existe uma distribuição estatística padrão correspondente a esse cenário: a distribuição hipergeométrica . Portanto, você pode obter essas probabilidades diretamente em, digamos, R:

Probabilidade de exatamente 2 dos 12 selecionados:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Probabilidade de 2 ou menos dos 12 selecionados:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 Obrigado. Eu deveria ter mencionado essa conexão. A distribuição hipergeométrica aparece classicamente em experimentos de amostragem-reamostragem. As 12 pessoas específicas (meus "bilhetes vermelhos") são como peixes que foram capturados, marcados e jogados de volta na piscina; a amostra de 232 é como o conjunto de peixes que são capturados posteriormente. A distribuição hipergeométrica descreve as frequências de peixes recapturados.
whuber

0

As probabilidades são muito maiores do que as calculadas com a distribuição hipergeométrica simples, pois o grupo não é escolhido aleatoriamente ( "12 peixes são pintados de vermelho antes do sorteio" ).

A partir da descrição da pergunta, estamos testando uma fraude no sorteio. Um grupo específico de 12 pessoas reclamou que apenas 2 delas foram selecionadas, enquanto o número esperado era 232/363 ~ 2/3 = 8.

O que realmente precisamos calcular é quais são as chances de que " Nenhum grupo de tamanho 12 terá apenas 2 membros selecionados". As chances de que pelo menos um grupo tenha 2 ou menos (portanto se queixam da imparcialidade do empate) são muito maiores.

Quando executo essa simulação e verifico quantas das tentativas, nenhum dos 30 (= 360/12) grupos tinha 2 ou menos seleções, recebo cerca de 2,3% das vezes. 1:42 é baixo, mas não impossível.

Você ainda deve verificar o procedimento do sorteio, pois pode ser tendencioso contra um grupo específico de pessoas. Eles podem ter se reunido e recebido um intervalo do sorteio com menos probabilidade (o primeiro ou o último número, por exemplo), ou qualquer variável dependente do procedimento do sorteio. Mas se você não encontrar nenhuma falha no procedimento, poderá voltar às chances de 1:42 de que é simplesmente azar para o grupo.


Um bom ponto, MAS (a) certamente nem todo grupo possível de 12 tem semelhança suficiente com a matéria e (b) nem todos os grupos com similaridade suficiente com a matéria têm exatamente 12 membros.
Zbicyclist 9/03/12

@ zbicyclist, não afirmo que o cálculo seja preciso. Eu queria dar uma dúvida razoável (como estamos no domínio da lei com detecção de fraude), de que o sorteio não é culpado.
31512 Guy
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.