Inicializando uma amostra de uma população finita

Alguém pode me apontar alguma referência para a teoria sobre inicialização de uma amostra de uma população de tamanho conhecido?

Estou acostumado a usar o Bootstrap para calcular intervalos de confiança de uma amostra quando o tamanho da população é considerado muito maior que a amostra (portanto, uma seleção aleatória com repetição deve emular bem o processo de amostragem).

Agora digamos que eu sei que a população é de 1000, e eu amostramos 800 (e vamos supor que a amostragem seja de fato aleatória). A seleção aleatória com repetição não parece ser apropriada. Pelo princípio pigeonhole, se eu realmente coletar outra amostra aleatória do tamanho 800, é garantido que pelo menos 600 valores serão os mesmos da amostra original, algo que o bootstrap tradicional não pode replicar (e pode perder muito).

Alguma solução? Eu pensei sobre:

Amostragem 1000 com repetição e, em seguida, escolha aleatoriamente 800 (parece ser uma abordagem equivalente à inicialização tradicional)
Amostra 600 sem repetição, do que com mais 200 amostras usando todas as 800 amostras com repetição. Isso explicaria o efeito que descrevi anteriormente.

Alguma idéia do que é bom e ruim com essas abordagens? Ou alguma abordagem alternativa?

— Inox
fonte

A amostragem de bootstrap deve se parecer com o processo de amostragem dos dados da população. No caso de população finita, você amostrou a fração fora da população de tamanho $f$ $N$ , ie $n = fN$ casos. Existem dois problemas com o uso do bootstrap nesse cenário: (1) se você utilizasse o bootstrap tradicional, você faria amostragem com substituição e não sem substituição; (2) se você amostrasse sem substituição $fn$ casos, você acabaria com uma amostra menor que . O primeiro cenário é uma péssima ideia, pois, nesse caso, o bootstrap não se pareceria com o processo de amostragem original. Para usar o bootstrap em casos de população finita, você tem três alternativas: $n$

Amostra sem amostras de substituição de tamanho e depois redimensionar os resultados. Encontrar o fator de redimensionamento apropriado pode ser mais complicado do que parece, portanto, essa pode não ser a melhor alternativa. $fn$
Primeira amostra sem casos de substituição da sua amostra, concatená-los para a amostra e, em seguida, amostra sem casos de substituição . Isso é chamado de inicialização de espelho . $N-n$ $n$
Primeira amostra com casos de substituição da sua amostra e, em seguida, amostras casos sem substituição . Isso é chamado de inicialização de superpopulação . $N$ $n$

Para saber mais sobre esses métodos, você pode verificar os seguintes recursos:

Davison, AC & Hinkley, DV (2009). Métodos de inicialização e sua aplicação. Nova York, NY: Cambridge University Press.

Sitter, RR (1992). Um procedimento de reamostragem para dados complexos de pesquisa. Jornal da Associação Estatística Americana, 87 (419), 755-765.

Sitter, RR (1992). Comparando três métodos de autoinicialização para dados da pesquisa. Canadian Journal of Statistics, 20 (2), 135-154.

— Tim
fonte

Muito obrigado pela resposta e pelas referências. Acho que não estava muito longe da resposta e certamente me beneficiará muito das referências.

— Inox

@Inox sim você estava muito perto :)

— Tim