Como usar / interpretar a distribuição empírica?

Antes de mais nada, gostaria de me desculpar pelo título vago. Ainda não consegui formular um título melhor agora. Sinta-se à vontade para mudar ou me aconselhar a mudar o título para melhor se encaixar no cerne da questão. .

Agora, sobre a questão em si, tenho trabalhado em um software no qual me deparei com a idéia de usar uma distribuição empírica para amostragem, mas agora que ela foi implementada não tenho certeza de como interpretar tudo. Permitam-me descrever o que fiz e por que:

Eu tenho vários cálculos para um conjunto de objetos, obtendo uma pontuação final. A pontuação, no entanto, é muito ad-hoc. Portanto, para entender a pontuação de um objeto em particular, o que faço é fazer um grande número (N = 1000) de cálculos de pontuações com valores simulados / gerados aleatoriamente, produzindo 1000 pontuações simuladas. A estimativa de uma "distribuição de pontuação" empírica para esse objeto específico é alcançada por esses 1000 valores de pontuação simulada.

Eu implementei isso em Java (como o restante do software também é escrito em ambiente Java) usando a biblioteca de matemática Apache Commons , em particular a EmpiricalDistImplclasse . De acordo com a documentação que esta classe usa:

o que equivale ao método variável do kernel com suavização gaussiana: digerindo o arquivo de entrada

Passe o arquivo uma vez para calcular min e max.

Divida o intervalo de min-max em binCount "compartimentos".

Passe o arquivo de dados novamente, computando contagens de bin e estatísticas univariadas (média, desvio padrão) para cada um dos compartimentos

Divida o intervalo (0,1) em subintervalos associados aos compartimentos, com o comprimento do subintervalo de um compartimento proporcional à sua contagem.

Agora, minha pergunta é: faz sentido amostrar dessa distribuição para calcular algum tipo de valor esperado? Em outras palavras, em quanto eu poderia confiar / confiar nessa distribuição? Por exemplo, eu poderia tirar conclusões sobre a importância de observar uma pontuação verificando a distribuição? $S$

Percebo que essa talvez seja uma maneira pouco ortodoxa de encarar um problema como esse, mas acho que seria interessante entender melhor o conceito de distribuições empíricas e como elas podem / não podem ser usadas na análise.

distributions sampling java

— posdef
fonte

Se eu entendi corretamente, sua distribuição final é basicamente tão boa quanto seus "valores simulados / gerados aleatoriamente" para os objetos. Então - você acha que já experimentou bem a distribuição de seus "objetos"?

— AVB

@AVB: não tanto a distribuição do objeto, mas a distribuição das pontuações para um objeto em particular. Acho que meu objetivo é: A) Certifique-se de que o cálculo da pontuação seja sólido e não inclinado para diferentes propriedades dos objetos em questão; e B) Ser capaz de dizer algo sobre a importância da pontuação calculada a partir de dados experimentais reais

— posdef em 21/03/11

Você pode considerar coletar mais amostras de seus objetos.

— John Salvatier 21/03

@ John: você quer dizer aumentar o número de 1000 para, digamos 10K? Eu estava pensando sobre isso também, mas não tinha certeza de como seria bom, considerando o tempo de computação. Alguma idéia sobre isso?

— 22411 posdef

Não conheço uma maneira fácil de quantificar a diferença. Pode ser instrutivo observar vários histogramas ou densidades do núcleo (com os olhos) com diferentes números de pontos.

— John Salvatier 22/03

Distribuições empíricas são usadas o tempo todo para inferência, então você está definitivamente no caminho certo! Um dos usos mais comuns de distribuições empíricas é o bootstrap. De fato, você nem precisa usar nenhuma das máquinas descritas acima. Em poucas palavras, você faz muitos sorteios (com substituição) das amostras originais de maneira uniforme e os resultados podem ser usados para calcular os intervalos de confiança nas quantidades estatísticas previamente calculadas. Além disso, essas amostras têm propriedades de convergência teórica bem desenvolvidas. Confira o artigo da Wikipedia sobre o tópico aqui .

— Gary
fonte

Obrigado pela sua resposta, Gary. Eu estou familiarizado com os métodos de inicialização, mas não sei como (leia-se: onde na análise) você sugere que eu implemente a inicialização. De quais amostras originais estamos falando?

— 22411 pos posff

N = 1000

$N=1000$

N

$N$

{\hat{μ}}_{N}

$\hat{\mu}_N$

M

$M$

M

$M$

{{\hat{μ}}_{i}^{*}}_{i = 1}^{M}

$\{\hat{\mu}_i^*\}_{i=1}^M$

{\hat{μ}}_{N}

$\hat{\mu}_N$

— Gary

P (x > x_{o b s})

$P(x > x_{obs})$

x \in {\hat{F}}_{1000} (x)

$x \in \hat{F}_{1000}(x)$

{\hat{μ}}_{N}

$\hat{\mu}_{N}$

y

$y$

F (y)

$F(y)$

N = 1000

$N=1000$

\hat{q}

$\hat{q}$

M

$M$

M

$M$

{\hat{q}}^{*}

$\hat{q}^*$

\hat{q}

$\hat{q}$ . O ponto principal é que a amostra original pode fornecer a estatística e o bootstrap fornece o IC. Talvez a verdadeira questão seja o que você quer fazer com a distribuição empírica.

— Gary