Tamanho das amostras de inicialização

Estou aprendendo sobre o bootstrap como meio de estimar a variação de uma estatística de amostra. Eu tenho uma dúvida básica.

Citando http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Quantas observações devemos refazer a amostra? Uma boa sugestão é o tamanho da amostra original.

Como podemos reamostrar tantas observações quanto na amostra original?
Se eu tenho um tamanho de amostra de 100 e estou tentando estimar a variação da média. Como posso obter várias amostras de bootstrap de tamanho 100 a partir de um tamanho total de amostra de 100? Somente 1 amostra de bootstrap seria possível nesse caso, o que seria equivalente à amostra original, certo?

Obviamente estou entendendo algo muito básico. Entendo que o número de amostras ideais de inicialização é sempre infinito e, para determinar o número necessário de amostras de inicialização necessárias para meus dados, eu precisaria testar a convergência, mantendo em mente a precisão exigida.
Mas estou realmente confuso sobre qual deve ser o tamanho de cada amostra de bootstrap individual .

sampling bootstrap resampling

— user1265125
fonte

O topo da p. 3 e as ilustrações ali, estipulam clara e com destaque que a reamostragem é com substituição.

— whuber

Mas se o tamanho da amostra do meu bootstrap for igual ao número total de observações que tenho, com o que substituo?

— user1265125

Exemplo simplificado - então, se eu tiver 4,1,3,7,5 como meu conjunto de amostras. Como posso criar várias amostras de bootstrap do tamanho 5? A única amostra de bootstrap tamanho 5 será 4,1,3,7,5, ou seja, o conjunto de amostras original.

— user1265125

Oh espere eu entendi - "• Para simular uma distribuição de amostragem, podemos apenas tomar amostras aleatórias repetidas a partir desta‘população’composta de muitas cópias da amostra"

— user1265125

Respostas:

O Bootstrap é conduzido por amostragem com substituição . Parece que o termo "com substituição" não é claro para você. Conforme observado pelo whuber , a ilustração da amostragem com substituição é dada na p. 3 do papel a que você se refere (reproduzido abaixo).

(fonte: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

A idéia geral de amostragem com substituição é que qualquer caso pode ser amostrado várias vezes (mármore verde na primeira imagem acima; bolinhas de gude azuis e violetas na última foto). Se você quiser se imaginar nesse processo, pense em uma tigela cheia de bolinhas coloridas. Diga que você deseja desenhar um certo número de bolinhas de gude nesta tigela. Se você amostrasse sem substituição, simplesmente pegaria as bolinhas da tigela e as colocaria de lado. Se você amostrasse com a substituição, você amostraria os mármores um a um, retirando mármore da tigela, assinando a cor em seu caderno e devolvendo-o de voltapara a tigela. Portanto, ao amostrar com substituição, o mesmo mármore pode ser amostrado várias vezes.

$n$ $n$ $n$ $n$ $n$ $n$ $n$

Não há formas de amostragem sem substituição casos fora da população de tamanho e maneiras de amostragem com substituição. Se você quiser ler mais sobre a matemática por trás disso, pode verificar o 2.1. Capítulo Combinatório do manual online Introdução à Probabilidade, de Hossein Pishro-Nik. Há também uma folha de dicas à mão na página WolframMathWorld . $n \choose k$ $k$ $n$ $n+k-1 \choose k$

— Tim
fonte

Quantas observações devemos amostrar novamente? Uma boa sugestão é o tamanho da amostra original.

Quando o tamanho original da amostra é muito grande e você não deseja / não pode treinar um modelo no conjunto de dados completo, a "boa sugestão" não é tão boa.

PS: Eu queria adicionar isso como um comentário à pergunta, mas não tenho permissão para adicionar nenhum comentário ...

— daruma
fonte

Por que você deseja adicionar esta sugestão? Se isso ocorre devido a conjuntos de dados muito grandes para esforços computacionais regulares, essa é uma questão prática relevante, mas não se aplica realmente à teoria do bootstrapping que foi questionada aqui. Além disso, tratava-se de "estimar a variação de uma estatística amostral". Isso está realmente relacionado ao treinamento geral de um modelo? (NB. Para não ser rude, eu entendo que você ainda não pode postar comentários, mas isso não exime você de fornecer uma resposta relevante ao postar como tal. Você precisa ser muito mais claro, OU postar sua própria pergunta)

— IWS