A única maneira de conhecer a variação da população é medir a população inteira.
No entanto, medir uma população inteira muitas vezes não é viável; requer recursos, incluindo dinheiro, ferramentas, pessoal e acesso. Por esse motivo, amostramos populações; que está medindo um subconjunto da população. O processo de amostragem deve ser planejado com cuidado e com o objetivo de criar uma população amostral representativa da população; dando duas considerações importantes - tamanho da amostra e técnica de amostragem.
Exemplo de brinquedo: você deseja estimar a variação de peso para a população adulta da Suécia. Existem cerca de 9,5 milhões de suecos, portanto não é provável que você possa medir todos eles. Portanto, você precisa medir uma população de amostra a partir da qual é possível estimar a verdadeira variação dentro da população.
Você sai para provar a população sueca. Para fazer isso, você fica no centro da cidade de Estocolmo e fica do lado de fora da popular fictícia cadeia de hambúrguer sueca Burger Kungen . De fato, está chovendo e faz frio (deve ser verão), então você fica dentro do restaurante. Aqui você pesa quatro pessoas.
As chances são de que sua amostra não reflita muito bem a população da Suécia. O que você tem é uma amostra de pessoas em Estocolmo, que estão em um restaurante de hambúrguer. Essa é uma técnica de amostragem ruim , porque é provável que incline o resultado, não fornecendo uma representação justa da população que você está tentando estimar. Além disso, você tem um pequeno tamanho de amostra, então você tem um alto risco de escolher quatro pessoas que estão nos extremos da população; muito leve ou muito pesado. Se você amostrou 1000 pessoas, é menos provável que cause um viés de amostragem; é muito menos provável escolher 1000 pessoas incomuns do que escolher quatro que são incomuns. Um tamanho de amostra maior forneceria, pelo menos, uma estimativa mais precisa da média e variação de peso entre os clientes do Burger Kungen.
O histograma ilustra o efeito da técnica de amostragem, a distribuição em cinza pode representar a população da Suécia que não come no Burger Kungen (média de 85 kg), enquanto o vermelho pode representar a população dos clientes da Burger Kungen (média de 100 kg) , e os traços azuis podem ser as quatro pessoas que você experimenta. A técnica correta de amostragem precisaria pesar a população de maneira justa e, nesse caso, ~ 75% da população, portanto 75% das amostras medidas, não devem ser clientes do Burger Kungen.
Esta é uma questão importante com muitas pesquisas. Por exemplo, as pessoas que provavelmente responderão a pesquisas de satisfação do cliente ou pesquisas de opinião nas eleições tendem a ser desproporcionalmente representadas por pessoas com visões extremas; pessoas com opiniões menos fortes tendem a ser mais reservadas para expressá-las.
O objetivo do teste de hipóteses é ( nem sempre ), por exemplo, testar se duas populações diferem uma da outra. Por exemplo, os clientes do Burger Kungen pesam mais do que os suecos que não comem no Burger Kungen? A capacidade de testar isso com precisão depende da técnica de amostragem adequada e do tamanho da amostra suficiente.
O código R para testar faz com que tudo isso aconteça:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Resultados:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024