Como podemos saber a variação da população?


10

No teste de hipóteses, uma pergunta comum é qual é a variação da população? Minha pergunta é como podemos saber a variação da população? Se soubéssemos toda a distribuição, poderíamos conhecer a média de toda a população. Então, qual é o objetivo do teste de hipóteses?


Alguma literatura relevante: nber.org/papers/w20325
dv_bn

Pode-se conhecer a variação sem saber nada sobre a média. Por exemplo, a variação pode ser recuperada dos quadrados de todas as diferenças de valores na população, mas essas diferenças não fornecem informações sobre a média. Independentemente disso, não vejo como as declarações e perguntas deste post levam à própria pergunta sobre o ponto do teste de hipóteses.
whuber

Respostas:


10

Não tenho certeza de que esse problema realmente surja "frequentemente" fora do Stats 101 (introdução às estatísticas). Não tenho certeza se já vi isso. Por outro lado, apresentamos o material dessa maneira ao ministrar cursos introdutórios, porque fornece uma progressão lógica: você começa com uma situação simples em que há apenas um grupo e conhece a variação, depois avança para onde não sabe conhecer a variância e progredir para onde há dois grupos (mas com igual variância) etc.

Para abordar um ponto um pouco diferente, você pergunta por que nos preocuparíamos com o teste de hipóteses se soubéssemos a variação, pois, portanto, também devemos saber a média. A última parte é razoável, mas a primeira parte é um mal-entendido: a média que saberíamos seria a média sob a hipótese nula. É isso que estamos testando. Considere o exemplo de @ StephanKolassa das pontuações de QI. Sabemos que a média é 100 e o desvio padrão é 15; o que estamos testando é se nosso grupo (digamos, ruivos canhotos ou talvez estudantes de estatística introdutórios) difere disso.


2
(+1) Talvez surja mais quando "amostragem de uma população" é uma maneira de pensar sobre o processo de geração de dados, em vez de algo a ser tomado literalmente. Conhecer a precisão de um instrumento de medição, por exemplo.
Scortchi - Restabelece Monica

Gung, como profissional com mais de 20 anos de carreira, esse problema surgiu na minha experiência com mais frequência do que você sugere. Não estou sugerindo que isso tenha surgido "frequentemente", apenas que os debates ocorreram. No entanto, e ao seu ponto de vista sobre as Estatísticas 101, mais do que nunca as discussões foram críticas que resolveram pouco ou nada sobre os detalhes de um estudo ou projeto - alguém só queria criar a aparência de inteligência ao fazer a pergunta.
Mike Hunter

11
@ Johnson, suponho que depende dos tópicos em que você trabalha.
gung - Restabelece Monica

4

Frequentemente, não sabemos a variação da população como tal - mas temos uma estimativa muito confiável de uma amostra diferente. Por exemplo, aqui está um exemplo para avaliar se o peso médio dos pingüins caiu, onde usamos a média de uma amostra pequena, mas a variação de uma amostra independente maior. Obviamente, isso pressupõe que a variação seja a mesma nas duas populações.

Um exemplo diferente pode ser a escala clássica de QI. Estes são normalizados para ter uma média de 100 e um desvio padrão de 15, usando amostras realmente grandes. Podemos então pegar uma amostra específica (digamos, 50 ruivas canhotos) e perguntar se o QI médio é significativamente maior que 100, usando 15 ^ 2 como uma variação "conhecida". Certamente, mais uma vez, isso levanta a questão de saber se a variação é realmente igual entre as duas amostras - afinal, já estamos testando se os meios são diferentes, então por que as variações são iguais?

Conclusão: suas preocupações são válidas e, geralmente, testes com momentos conhecidos servem apenas para fins didáticos. Nos cursos de estatística, eles geralmente são seguidos imediatamente com testes usando momentos estimados .


2

A única maneira de conhecer a variação da população é medir a população inteira.

No entanto, medir uma população inteira muitas vezes não é viável; requer recursos, incluindo dinheiro, ferramentas, pessoal e acesso. Por esse motivo, amostramos populações; que está medindo um subconjunto da população. O processo de amostragem deve ser planejado com cuidado e com o objetivo de criar uma população amostral representativa da população; dando duas considerações importantes - tamanho da amostra e técnica de amostragem.

Exemplo de brinquedo: você deseja estimar a variação de peso para a população adulta da Suécia. Existem cerca de 9,5 milhões de suecos, portanto não é provável que você possa medir todos eles. Portanto, você precisa medir uma população de amostra a partir da qual é possível estimar a verdadeira variação dentro da população.

Você sai para provar a população sueca. Para fazer isso, você fica no centro da cidade de Estocolmo e fica do lado de fora da popular fictícia cadeia de hambúrguer sueca Burger Kungen . De fato, está chovendo e faz frio (deve ser verão), então você fica dentro do restaurante. Aqui você pesa quatro pessoas.

As chances são de que sua amostra não reflita muito bem a população da Suécia. O que você tem é uma amostra de pessoas em Estocolmo, que estão em um restaurante de hambúrguer. Essa é uma técnica de amostragem ruim , porque é provável que incline o resultado, não fornecendo uma representação justa da população que você está tentando estimar. Além disso, você tem um pequeno tamanho de amostra, então você tem um alto risco de escolher quatro pessoas que estão nos extremos da população; muito leve ou muito pesado. Se você amostrou 1000 pessoas, é menos provável que cause um viés de amostragem; é muito menos provável escolher 1000 pessoas incomuns do que escolher quatro que são incomuns. Um tamanho de amostra maior forneceria, pelo menos, uma estimativa mais precisa da média e variação de peso entre os clientes do Burger Kungen.

insira a descrição da imagem aqui

O histograma ilustra o efeito da técnica de amostragem, a distribuição em cinza pode representar a população da Suécia que não come no Burger Kungen (média de 85 kg), enquanto o vermelho pode representar a população dos clientes da Burger Kungen (média de 100 kg) , e os traços azuis podem ser as quatro pessoas que você experimenta. A técnica correta de amostragem precisaria pesar a população de maneira justa e, nesse caso, ~ 75% da população, portanto 75% das amostras medidas, não devem ser clientes do Burger Kungen.

Esta é uma questão importante com muitas pesquisas. Por exemplo, as pessoas que provavelmente responderão a pesquisas de satisfação do cliente ou pesquisas de opinião nas eleições tendem a ser desproporcionalmente representadas por pessoas com visões extremas; pessoas com opiniões menos fortes tendem a ser mais reservadas para expressá-las.

O objetivo do teste de hipóteses é ( nem sempre ), por exemplo, testar se duas populações diferem uma da outra. Por exemplo, os clientes do Burger Kungen pesam mais do que os suecos que não comem no Burger Kungen? A capacidade de testar isso com precisão depende da técnica de amostragem adequada e do tamanho da amostra suficiente.


O código R para testar faz com que tudo isso aconteça:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

Resultados:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

Sim, isso é verdade, mas nesses casos também há redimensionamento para uma média fixa, portanto não gera uma situação em que haja uma média desconhecida e uma variação conhecida. Além disso, a escala é feita depois que todos os valores são conhecidos.
Ben - Restabelece Monica

1

O único exemplo realista em que consigo pensar quando a média é desconhecida, mas a variação é conhecida é quando há amostragem aleatória de pontos em uma hiperesfera (em qualquer dimensão) com um raio fixo e um centro desconhecido. Esse problema tem uma média desconhecida (centro da esfera), mas uma variação fixa (raio quadrado da esfera). Não conheço outros exemplos realistas em que haja uma média desconhecida, mas uma variação conhecida. (E para ser claro: apenas ter uma estimativa de variação externa de outros dados não é um exemplo de variação conhecida. Além disso, se você tiver essa estimativa de variação de outros dados, por que você também não tem uma estimativa média correspondente da mesma dados?)

Na minha opinião, os cursos estatísticos introdutórios que ensinam testes com uma média desconhecida e uma variação conhecida são um anacronismo e são equivocados como uma ferramenta de ensino moderna. Pedagogicamente, é muito melhor começar diretamente com o teste T para o caso de uma média e variância desconhecidas e tratar o teste z como uma aproximação assintótica a isso, válida quando o grau de liberdade é grande (ou não) nem se preocupe em ensinar o teste z). O número de situações em que haveria uma variação conhecida, mas a média desconhecida é muito pequena, e geralmente é enganoso para os alunos apresentar esse caso (insanamente raro).


0

Às vezes, nos problemas aplicados, há razões apresentadas pela física, economia etc. que nos dizem sobre variação e não têm incerteza. Outras vezes, a população pode ser finita e podemos saber algumas coisas sobre todos, mas precisamos amostrar e executar estatísticas para aprender o resto.

Geralmente, sua preocupação é bastante válida.


5
É difícil imaginar um exemplo da física ou da economia em que saberíamos a variação, mas não a média. Semelhante para distribuições discretas. Você poderia dar um ou dois exemplos concretos?
Stephan Kolassa

@StephanKolassa Acredito que as medições experimentais da física seriam um exemplo - podemos ter um processo ou dispositivo de medição que tenha uma variação bem conhecida (erro de medição); portanto, ao medir um evento específico, você pode assumir que a variação é a mesma, mas você só pode estimar a verdadeira média.
Peteris 25/05

2
@ Peteris: isso faz sentido - mas soa mais como o caso que observo , da variação (do seu instrumento) ter sido estimada em "amostras de calibração" anteriores. Eu esperaria que uma variação derivada teoricamente sem incerteza (!) Fosse uma coisa diferente.
Stephan Kolassa
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.