Estou tentando encontrar a distribuição característica mais apropriada de dados de medições repetidas de um determinado tipo.
Essencialmente, no meu ramo da geologia, geralmente usamos datação radiométrica de minerais de amostras (pedaços de rocha) para descobrir há quanto tempo um evento aconteceu (a rocha esfriou abaixo de uma temperatura limite). Normalmente, várias medições (3-10) serão feitas a partir de cada amostra. Então, a média e o desvio padrão são obtidos. Como é geologia, as idades de resfriamento das amostras podem variar de a anos, dependendo da situação.
No entanto, tenho razões para acreditar que as medições não são gaussianas: 'Outliers', declarados arbitrariamente, ou através de algum critério como o critério de Peirce [Ross, 2003] ou o teste de Dixon [Dean e Dixon, 1951] , são razoavelmente comum (digamos, 1 em 30) e essas são quase sempre mais antigas, indicando que essas medidas são caracteristicamente inclinadas para a direita. Existem razões bem entendidas para isso ter a ver com impurezas mineralógicas.
Portanto, se eu conseguir encontrar uma melhor distribuição, que incorpore caudas gordas e distorções, acho que podemos construir parâmetros de localização e escala mais significativos, e não ter que dispensar discrepantes tão rapidamente. Ou seja, se for possível demonstrar que esses tipos de medidas são lognormal, ou log-Laplaciano, ou qualquer outra coisa, medidas mais apropriadas de probabilidade máxima podem ser usadas que e , que não são robustas e talvez tendenciosas no caso de dados sistematicamente inclinados à direita.
Eu estou querendo saber qual é a melhor maneira de fazer isso. Até agora, eu tenho um banco de dados com cerca de 600 amostras e 2-10 (mais ou menos) replicam medições por amostra. Tentei normalizar as amostras dividindo cada uma pela média ou mediana e, depois, analisando os histogramas dos dados normalizados. Isso produz resultados razoáveis e parece indicar que os dados são caracteristicamente log-laplacianos:
No entanto, não tenho certeza se essa é a maneira apropriada de fazer isso, ou se existem advertências que eu desconheço que possam estar influenciando meus resultados, para que fiquem assim. Alguém tem experiência com esse tipo de coisa e conhece as melhores práticas?