Eu sou um novato em estatísticas, então peço desculpas antecipadamente se estou fazendo uma pergunta ousada. Procurei respostas para minha pergunta, mas acho que muitos dos tópicos são muito específicos ou vão rapidamente além do que eu entendo atualmente.
Eu tenho alguns trabalhos de simulação que incluem grandes conjuntos de dados que se tornam inviáveis para simular exaustivamente. Para o menor dos meus conjuntos de dados, uma execução exaustiva apresenta a seguinte distribuição de resultados de um total de 9180900 testes.
Resultado / Frequência:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
O que os números significam não importa; o que importa é que os conjuntos de dados maiores que eu tenho podem se estender a bilhões de testes e se tornar muito demorados para serem executados. Eu preciso restringir a carga de trabalho.
Eu sinto que deveria ser capaz de amostrar a partir do conjunto completo de testes para derivar uma distribuição para a amostra e inferir (dentro de alguns limites) que os resultados de uma simulação exaustiva exibiriam aproximadamente a mesma distribuição. Não há viés inerente aos testes executados; portanto, a escolha uniforme de entradas aleatórias deve fornecer uma amostra válida.
O que ainda não entendi é como devo selecionar o tamanho da minha amostra. Em particular, a distribuição exibe uma cauda estranha, e eu temo que a amostragem muito pequena perca as frequências mais baixas. (As 140 ocorrências de '4' representam apenas 0,0015% da população!)
Então, minha pergunta é: qual é a melhor maneira de calcular um tamanho de amostra com o qual posso afirmar algum nível de bondade nos meus resultados?
Ou estou fazendo a pergunta errada?