Como você chama essa estratégia dinâmica de seleção de tamanho de amostra?

Imagine que você deseja avaliar a compressibilidade de um documento grande muito rapidamente. Você pode escolher aleatoriamente uma subsequência, tentar compactá-la. Isso pode servir como uma previsão para a compressibilidade geral do documento. Mas qual deve ser o tamanho da sua amostra?

Criamos a seguinte estratégia:

Escolha um tamanho de amostra arbitrário (pequeno). Meça a compressibilidade.
Em seguida, dobre o tamanho da amostra e meça a compressibilidade novamente. Se houver pouca alteração (digamos menos de 10%), conclua que você determinou com segurança a compressibilidade do documento. Caso contrário, duplique o tamanho da amostra novamente e assim por diante.

Temos certeza de que essa não é uma estratégia nova e estamos nos perguntando se ela está relacionada a alguma estratégia bem conhecida usada pelos estatísticos.

("Compactação" é apenas um exemplo. Basicamente, estamos interessados em uma métrica que não possui boas propriedades matemáticas conhecidas, para que não seja possível determinar analiticamente o que poderia ser um bom tamanho de amostra. Não temos escolha a não ser cair de volta a essas heurísticas.)

sampling model-selection sample-size

— Daniel Lemire
fonte

Isso foi chamado de 'Amostra progressiva', por exemplo, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.9168&rep=rep1&type=pdf

— CDX
fonte

A referência dada pelo CDX é: Foster Provost, David Jensen e Tim Oates. 1999. Amostragem progressiva eficiente. Em Anais da quinta conferência internacional ACM SIGKDD sobre descoberta de conhecimento e mineração de dados (KDD '99). ACM, Nova York, NY, EUA, 23-32.

— Daniel Lemire 12/07