Como normalizar dados de distribuição desconhecida


12

Estou tentando encontrar a distribuição característica mais apropriada de dados de medições repetidas de um determinado tipo.

Essencialmente, no meu ramo da geologia, geralmente usamos datação radiométrica de minerais de amostras (pedaços de rocha) para descobrir há quanto tempo um evento aconteceu (a rocha esfriou abaixo de uma temperatura limite). Normalmente, várias medições (3-10) serão feitas a partir de cada amostra. Então, a média e o desvio padrão são obtidos. Como é geologia, as idades de resfriamento das amostras podem variar de a anos, dependendo da situação.μσ105109

No entanto, tenho razões para acreditar que as medições não são gaussianas: 'Outliers', declarados arbitrariamente, ou através de algum critério como o critério de Peirce [Ross, 2003] ou o teste de Dixon [Dean e Dixon, 1951] , são razoavelmente comum (digamos, 1 em 30) e essas são quase sempre mais antigas, indicando que essas medidas são caracteristicamente inclinadas para a direita. Existem razões bem entendidas para isso ter a ver com impurezas mineralógicas.

Média vs. idade média da amostra.  A linha vermelha indica média = mediana.  Observe os meios mais antigos causados ​​por medições distorcidas.

Portanto, se eu conseguir encontrar uma melhor distribuição, que incorpore caudas gordas e distorções, acho que podemos construir parâmetros de localização e escala mais significativos, e não ter que dispensar discrepantes tão rapidamente. Ou seja, se for possível demonstrar que esses tipos de medidas são lognormal, ou log-Laplaciano, ou qualquer outra coisa, medidas mais apropriadas de probabilidade máxima podem ser usadas que e , que não são robustas e talvez tendenciosas no caso de dados sistematicamente inclinados à direita.μσ

Eu estou querendo saber qual é a melhor maneira de fazer isso. Até agora, eu tenho um banco de dados com cerca de 600 amostras e 2-10 (mais ou menos) replicam medições por amostra. Tentei normalizar as amostras dividindo cada uma pela média ou mediana e, depois, analisando os histogramas dos dados normalizados. Isso produz resultados razoáveis ​​e parece indicar que os dados são caracteristicamente log-laplacianos:

insira a descrição da imagem aqui

No entanto, não tenho certeza se essa é a maneira apropriada de fazer isso, ou se existem advertências que eu desconheço que possam estar influenciando meus resultados, para que fiquem assim. Alguém tem experiência com esse tipo de coisa e conhece as melhores práticas?


4
Como 'normalizar' é usado para significar várias coisas diferentes em contextos como este, exatamente o que você quer dizer com "normalizar"? Quais informações você está tentando extrair dos dados?
Glen_b -Reinstala Monica

1
@Glen_b: Por 'Normalizar', eu simplesmente quero dizer escalar as coisas pela mediana (ou média) de todas as idades medidas de uma amostra pela mediana (ou média ou qualquer outra coisa). Há evidências experimentais de que a dispersão nas amostras aumenta linearmente com a idade. O que eu quero com os dados é ver se esse tipo de medição é melhor caracterizado por uma distribuição normal, log-normal, beta ou qualquer distribuição, de modo que a localização e a escala mais precisas possam ser derivadas, ou L1 vs. Regressão L2 justificada, etc. Neste post, estou perguntando como posso obter dados que descrevi e investigar isso.
Cossatot

1
Não tenho experiência neste campo, mas seus gráficos e o pensamento que você coloca nisso parecem bons. Você já deve ter visto, mas o artigo da Wikipedia sobre Log-Laplace está vinculado a um bom artigo, que não aborda diretamente sua pergunta, mas pode ter algumas idéias interessantes: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne Wayne

Não sei se entendi completamente, mas talvez o bootstrapping possa ajudar? Se você recuperar a variação etc. da sua distribuição usando métodos de inicialização, poderá usar as informações recuperadas para normalizar seus dados. pt.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Respostas:


1

Você já pensou em tirar a média das (3-10) medidas de cada amostra? Você pode trabalhar com a distribuição resultante - que aproximará a distribuição t, que aproximará a distribuição normal para n maior?


1

Não acho que você esteja usando normalizar para significar o que normalmente significa, o que normalmente é algo como normalizar a média e / ou variação e / ou clareamento, por exemplo.

Acho que o que você está tentando fazer é encontrar uma reparametrização não linear e / ou recursos que permitem usar modelos lineares em seus dados.

Isso não é trivial e não tem uma resposta simples. É por isso que os cientistas de dados recebem muito dinheiro ;-)

Uma maneira relativamente direta de criar recursos não lineares é usar uma rede neural de feed-forward, onde o número de camadas e o número de neurônios por camada controla a capacidade da rede de gerar recursos. Maior capacidade => mais não linearidade, mais adaptação. Menor capacidade => mais linearidade, maior viés, menor variação.

Outro método que lhe dá um pouco mais de controle é usar splines.

Por fim, você pode criar esses recursos manualmente, o que eu acho que é o que você está tentando fazer, mas, então, não há uma resposta simples da 'caixa preta': você precisará analisar cuidadosamente os dados, procurar padrões etc. .


Normalizar tem vários significados em matemática e ciências; declarar que o significado pessoal mais familiar é padrão é o que a maioria das pessoas é tentada a fazer, mas não se lava com os outros. Mais a sério, isso começa no tópico, mas depois se desvia. Onde está a indicação de interesse em modelos não lineares? Redes neurais? Splines? O que isso tem a ver com a identificação de uma distribuição ou família de distribuições, qual é a questão? Não consigo ver a conexão, por isso recomendo cortar o que não é relevante ou expandi-lo para mostrar como é relevante.
Nick Cox

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.