Alguém pode me apontar alguma referência para a teoria sobre inicialização de uma amostra de uma população de tamanho conhecido?
Estou acostumado a usar o Bootstrap para calcular intervalos de confiança de uma amostra quando o tamanho da população é considerado muito maior que a amostra (portanto, uma seleção aleatória com repetição deve emular bem o processo de amostragem).
Agora digamos que eu sei que a população é de 1000, e eu amostramos 800 (e vamos supor que a amostragem seja de fato aleatória). A seleção aleatória com repetição não parece ser apropriada. Pelo princípio pigeonhole, se eu realmente coletar outra amostra aleatória do tamanho 800, é garantido que pelo menos 600 valores serão os mesmos da amostra original, algo que o bootstrap tradicional não pode replicar (e pode perder muito).
Alguma solução? Eu pensei sobre:
- Amostragem 1000 com repetição e, em seguida, escolha aleatoriamente 800 (parece ser uma abordagem equivalente à inicialização tradicional)
- Amostra 600 sem repetição, do que com mais 200 amostras usando todas as 800 amostras com repetição. Isso explicaria o efeito que descrevi anteriormente.
Alguma idéia do que é bom e ruim com essas abordagens? Ou alguma abordagem alternativa?