Por que considerar a amostragem sem substituição em uma aplicação prática?


12

Amostragem com substituição tem duas vantagens sobre amostragem sem substituição, a meu ver:

1) Você não precisa se preocupar com a correção da população finita.

2) Há uma chance de que elementos da população sejam desenhados várias vezes - então você pode reciclar as medições e economizar tempo.

Obviamente, de um ponto de vista acadêmico, é preciso investigar os dois métodos. Mas, de um ponto de vista prático, não vejo por que alguém consideraria a amostragem sem substituição, dadas as vantagens da substituição.

Como sou iniciante em estatística, pode haver muitas boas razões pelas quais, sem substituição, pode ser a escolha superior - pelo menos para casos de uso específicos. Por favor, me desconfie!


3
Dica: considere qual é o efeito da aplicação da correção finita da população e por que isso pode ser vantajoso. (Observe também que (1) fazer somas é quase sempre menos problemas e despesas do que coletar dados; (2) se você pode distinguir indivíduos, não deve "reciclar" as medidas, mas basear a inferência apenas nos indivíduos distintos.)
Scortchi - Reinstale Monica

Honestamente, eu realmente não entendo nenhuma de suas afirmações. O CPF compensa as conseqüências numéricas da falta de independência das medições. Mas não sei por que isso é vantajoso. (1) como isso se relaciona com a minha pergunta? (2) Por que "você não deveria" reciclar uma medida? Isso não é a conseqüência lógica direta de ter desenhado coincidentemente duas vezes o mesmo item na amostragem com substituição?
Raffael

Respostas:


13

Expandindo a resposta de @Scortchi. . .

Suponha que a população tenha 5 membros e você tenha orçamento para provar 5 indivíduos. Você está interessado na média populacional de uma variável X, uma característica dos indivíduos nessa população. Você pode fazer do seu jeito e experimentar aleatoriamente com substituição. A variância da média da amostra será V (X) / 5.

Por outro lado, suponha que você prove os cinco indivíduos sem substituição. Então, a variação da média da amostra é 0. Você amostrou toda a população, cada indivíduo exatamente uma vez, para que não haja distinção entre "média da amostra" e "média da população". Eles são a mesma coisa.

No mundo real, você deve pular de alegria toda vez que precisar fazer a correção finita da população, porque (drumroll ...) faz com que a variação do seu estimador diminua sem que você precise coletar mais dados. Quase nada faz isso. É como mágica: boa mágica.

Dizendo exatamente o mesmo em matemática (preste atenção ao <e assuma que o tamanho da amostra é maior que 1):

finite sample correction=NnN1<N1N1=1

Correção <1 significa que a aplicação da correção diminui a variação, porque você aplica a correção multiplicando-a pela variação. Variação DOWN == bom.

Movendo-se na direção oposta, totalmente longe da matemática, pense no que está perguntando. Se você deseja aprender sobre a população e pode experimentar 5 pessoas, parece provável que você aprenda mais, aproveitando a chance de provar o mesmo cara 5 vezes ou parece mais provável que você aprenda mais, garantindo que você experimenta 5 caras diferentes?

O caso do mundo real é quase o oposto do que você está dizendo. Quase nunca você experimenta substituição - é apenas quando você está fazendo coisas especiais, como inicialização. Nesse caso, você está realmente tentando estragar o estimador e dar uma variação "muito grande".


Em "bootstrapping", entendo o uso de um parâmetro da amostra no lugar do parâmetro da população (que você realmente precisaria usar) para estimar um parâmetro da população. Por que você estaria interessado em "estragar" o estimador e dar-lhe uma variação "muito grande"?
Raffael

1
@ Ffaffael Estou falando sobre bootstrapping não paramétrico. Você pega sua amostra (por exemplo, tamanho 100), volta a amostrá-la com substituição (100 vezes produzindo uma amostra de bootstrap do tamanho 100) e, em seguida, recalcula seu estimador de interesse. Você está tratando a amostra como uma população de brinquedos, simulando tirar uma amostra dela, calculando um estimador. Se você amostrasse da população de brinquedos sem substituição, copiasse exatamente a população de brinquedos na amostra, obtendo a estimativa original como a nova estimativa (ou seja, variação = 0). Para evitar isso, faça uma amostra com a substituição.
Bill

5

A precisão das estimativas é geralmente mais alta para amostragem sem substituição em comparação com amostragem com substituição.

Por exemplo, é possível selecionar apenas um elemento vezes quando a amostragem é feita com substituição em um caso extremo. Isso pode levar a estimativas muito imprecisas do parâmetro de interesse da população. Tal situação não é possível na amostragem sem substituição. Portanto, a variação é geralmente mais baixa para estimativas feitas a partir de amostragem sem substituição.n


2

Não acho que as respostas aqui sejam totalmente adequadas e elas parecem argumentar sobre o caso limitante em que sua quantidade de dados é muito baixa.

Com uma amostra suficientemente grande, isso não é uma preocupação, especialmente com muitas reamostragens de autoinicialização (~ 1000). Se eu amostrar da distribuição verdadeira um conjunto de dados de tamanho 10.000 e fizer uma nova amostragem com substituição 1.000 vezes, a variação que eu ganho (em oposição à variação que eu obteria sem a substituição) é totalmente desprezível.

Eu diria que a resposta mais precisa é a seguinte: reamostrar sem substituição é essencial ao estimar a confiança de uma estatística de segunda ordem . Por exemplo, se estou usando um bootstrap para estimar a incerteza que tenho em uma medição de dispersão. Desenhar com substituição para tal quantidade pode polarizar artificialmente as dispersões recuperadas.

Para um exemplo concreto com dados reais, se você quiser, consulte este documento https://arxiv.org/abs/1612.02827

ele discute brevemente sua pergunta na página 10


0

Eu tenho um resultado que trata praticamente sem substituição como com a substituição e remove todas as dificuldades. Observe que os cálculos de substituição são muito mais fáceis. Assim, se uma probabilidade envolve p e q, probabilidades de sucesso e fracasso, no caso de substituição, a probabilidade correspondente em caso sem substituição é obtida simplesmente com a substituição de p ^ aq ^ b por (Nab) C (Ra) para any aeb, onde N, R é o número total de bolas e o número de bolas brancas. Lembre-se de que p é tratado como R / N.

K.Balasubramanian


houve uma omissão. (Nab) C (Ra) / (NCR) é a expressão correta. Por exemplo, o np médio passa a n (N-1-0) / (R-1) / NCR. você pode verificar esse resultado.
precisa
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.