Antes de mais nada, gostaria de me desculpar pelo título vago. Ainda não consegui formular um título melhor agora. Sinta-se à vontade para mudar ou me aconselhar a mudar o título para melhor se encaixar no cerne da questão. .
Agora, sobre a questão em si, tenho trabalhado em um software no qual me deparei com a idéia de usar uma distribuição empírica para amostragem, mas agora que ela foi implementada não tenho certeza de como interpretar tudo. Permitam-me descrever o que fiz e por que:
Eu tenho vários cálculos para um conjunto de objetos, obtendo uma pontuação final. A pontuação, no entanto, é muito ad-hoc. Portanto, para entender a pontuação de um objeto em particular, o que faço é fazer um grande número (N = 1000) de cálculos de pontuações com valores simulados / gerados aleatoriamente, produzindo 1000 pontuações simuladas. A estimativa de uma "distribuição de pontuação" empírica para esse objeto específico é alcançada por esses 1000 valores de pontuação simulada.
Eu implementei isso em Java (como o restante do software também é escrito em ambiente Java) usando a biblioteca de matemática Apache Commons , em particular a EmpiricalDistImpl
classe . De acordo com a documentação que esta classe usa:
o que equivale ao método variável do kernel com suavização gaussiana: digerindo o arquivo de entrada
- Passe o arquivo uma vez para calcular min e max.
- Divida o intervalo de min-max em binCount "compartimentos".
- Passe o arquivo de dados novamente, computando contagens de bin e estatísticas univariadas (média, desvio padrão) para cada um dos compartimentos
- Divida o intervalo (0,1) em subintervalos associados aos compartimentos, com o comprimento do subintervalo de um compartimento proporcional à sua contagem.
Agora, minha pergunta é: faz sentido amostrar dessa distribuição para calcular algum tipo de valor esperado? Em outras palavras, em quanto eu poderia confiar / confiar nessa distribuição? Por exemplo, eu poderia tirar conclusões sobre a importância de observar uma pontuação verificando a distribuição?
Percebo que essa talvez seja uma maneira pouco ortodoxa de encarar um problema como esse, mas acho que seria interessante entender melhor o conceito de distribuições empíricas e como elas podem / não podem ser usadas na análise.