A resposta curta:
Basicamente, é mais convincente ter 600 em 1000 do que seis em 10 porque, dadas as mesmas preferências, é muito mais provável que 6 em 10 ocorram por acaso.
Vamos supor - que a proporção que preferiu laranjas e maçãs seja realmente igual (portanto, 50% cada). Chame isso de hipótese nula. Dadas essas probabilidades iguais, a probabilidade dos dois resultados é:
- Dada uma amostra de 10 pessoas, há uma chance de 38% de obter aleatoriamente uma amostra de 6 ou mais pessoas que preferem laranjas (o que não é tão improvável).
- Com uma amostra de 1000 pessoas, há menos de 1 em um bilhão de chances de ter 600 ou mais em cada 1000 pessoas preferem laranjas.
(Para simplificar, estou assumindo uma população infinita da qual extrair um número ilimitado de amostras).
Uma derivação simples
Uma maneira de obter esse resultado é simplesmente listar as possíveis maneiras pelas quais as pessoas podem se combinar em nossas amostras:
Para dez pessoas, é fácil:
Considere desenhar amostras aleatórias de 10 pessoas de uma população infinita de pessoas com preferências iguais para maçãs ou laranjas. Com preferências iguais, é fácil listar todas as combinações possíveis de 10 pessoas:
Aqui está a lista completa.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r é o número de resultados (pessoas que preferem laranjas), C é o número de maneiras possíveis de muitas pessoas preferirem laranjas ep é a probabilidade discreta resultante de muitas pessoas preferirem laranjas em nossa amostra.
(p é apenas C dividido pelo número total de combinações. Observe que existem 1024 maneiras de organizar essas duas preferências no total (ou seja, 2 à potência de 10).
- Por exemplo, existe apenas um caminho (uma amostra) para 10 pessoas (r = 10) para todos preferirem laranjas. O mesmo vale para todas as pessoas que preferem maçãs (r = 0).
- Existem 10 combinações diferentes, resultando em nove delas preferindo laranjas. (Uma pessoa diferente prefere maçãs em cada amostra).
- Existem 45 amostras (combinações) em que 2 pessoas preferem maçãs, etc., etc.
(Em geral, falamos sobre n C r combinações de resultados r de uma amostra de n pessoas. Existem calculadoras on-line que você pode usar para verificar esses números.)
Essa lista nos permite fornecer as probabilidades acima usando apenas divisão. Existe uma chance de 21% de obter 6 pessoas na amostra que preferem laranjas (210 de 1024 das combinações). A chance de obter seis ou mais pessoas em nossa amostra é de 38% (a soma de todas as amostras com seis ou mais pessoas, ou 386 de 1024 combinações).
Graficamente, as probabilidades são assim:
Com números maiores, o número de combinações potenciais cresce rapidamente.
Para uma amostra de apenas 20 pessoas, existem 1.048.576 amostras possíveis, todas com igual probabilidade. (Nota: eu mostrei apenas todas as segundas combinações abaixo).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Ainda existe apenas uma amostra em que todas as 20 pessoas preferem laranjas. As combinações que apresentam resultados mistos são muito mais prováveis, simplesmente porque existem muitas outras maneiras pelas quais as pessoas nas amostras podem ser combinadas.
As amostras tendenciosas são muito mais improváveis, apenas porque há menos combinações de pessoas que podem resultar nessas amostras:
Com apenas 20 pessoas em cada amostra, a probabilidade cumulativa de ter 60% ou mais (12 ou mais) pessoas em nossa amostra preferindo laranjas cai para apenas 25%.
A distribuição de probabilidade pode ser vista mais fina e mais alta:
Com 1000 pessoas, os números são enormes
Podemos estender os exemplos acima para amostras maiores (mas os números crescem rápido demais para que seja possível listar todas as combinações); em vez disso, calculei as probabilidades em R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
A probabilidade cumulativa de ter 600 ou mais em 1.000 pessoas prefere laranjas é apenas 1.364232e-10.
A distribuição de probabilidade agora está muito mais concentrada em torno do centro:
[
(Por exemplo, para calcular a probabilidade de exatamente 600 dentre 1.000 pessoas que preferem laranjas em R, dbinom(600, 1000, prob=0.5)
é igual a 4.633908e-11, e a probabilidade de 600 ou mais pessoas é 1-pbinom(599, 1000, prob=0.5)
igual a 1.364232e-10 (menos de 1 em um bilhão).