Como é chamado esse "fenômeno"?


8

Abaixo está um histograma de alguns dados, os compartimentos são inteiros e os outros parâmetros são irrelevantes.

Distribuições sobrepostas

Como você pode ver, parece haver duas distribuições normais separadas, mas sobrepostas, para números ímpares e pares.

A probabilidade de ser um número par é 1/3, da mesma forma 2/3 para um número ímpar.

Não tenho idéia do real significado estatístico disso para ser honesto, então estou tentando descobrir o que é aprender mais, mas não consigo encontrar nada, tentei tantos termos de pesquisa para encontrar isso e até buscas reversas de imagens, mas tudo o que recebo são informações sobre distribuições multimodais, etc. e não consigo encontrar nada sobre quando as distribuições multimodais realmente se sobrepõem dessa maneira

Existe um nome para isso?

Para os interessados, os dados são de 1.000.000 de jogos aleatórios de goofspiel (N = 13) usando o script matlab

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

Um exemplo mais geral (embora artificial) seria o seguinte

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

Exemplo Geral

Como no primeiro exemplo, há duas distribuições sobrepostas (triangular e normal), mas neste caso, em vez de alternar em cada ponto, é aleatório.

Eu sei que este é um exemplo exagerado (e nem mesmo um histograma), mas deve haver exemplos desse tipo de coisa realmente acontecendo com dados estatísticos, certo? Então, novamente, talvez não, ou é completamente irrelevante?

A questão real é dupla:
A questão geral - Como é chamado esse tipo de "coisa"? - para que eu (ou qualquer outra pessoa que possa se deparar com isso) possa aprender mais sobre isso e se precisar fazer algum ajuste.
A questão, especificamente relacionada ao meu primeiro conjunto de dados - devo separar os valores ímpares e pares ou ajustar uma distribuição normal a todo o conjunto?


Parece um modelo de mistura descolada, em que o pdf é 1/3 (pdf dos pares) +2/3 (pdf das probabilidades). Eu não sei como trabalhar a distribuição normal nela, porque claramente não é contínua.
Huy Pham

Qual é exatamente a pergunta? Você parece simular alguns dados, que seguem uma distribuição estranha, mas qual é exatamente o problema?
Tim

1
@ Tim Eu editei para ficar um pouco mais claro. Suponho que estou no pressuposto de que isso é menos raro do que é e já foi estudado antes. Se isso não for o caso, então a questão é simplesmente como eu iria sobre descrevendo / modelar a distribuição do meu primeiro conjunto de dados
Benjamin Tilbury

@BenjaminTilbury em relação à sua última pergunta, adequada. Você pode ajustar mais facilmente uma curva de densidade normal ao histograma quando aumentar o tamanho da bandeja para dois. Outra abordagem seria ajustar a distribuição cumulativa. Qual opção você escolhe depende um pouco do que você fará com ela. Possivelmente, seu interesse está mais na função de distribuição cumulativa.
Sextus Empiricus

É chamado de "alias". Os padrões de moiré são um dos (muitos) exemplos.
whuber

Respostas:


4

Esta resposta não é uma resposta direta à sua pergunta, porque está relacionada a uma causa diferente do padrão.

Mas está relacionado à mesma aparência gráfica e, portanto, eu a publico como resposta e não como comentário (antes de ler o script do Matlab, pensei que o padrão no histograma era devido a essa causa diferente).


Sua pergunta me fez revisitar um histograma que plotei em resposta a uma pergunta recente.

ilustração antiga

Usei o tamanho bins 1, enquanto a distância entre os resultados (discretos) era de 0,538. Tornar as barras do histograma plotadas ocasionalmente com as contagens de um único valor em vez das contagens de dois valores.

Depois de ajustar os tamanhos dos compartimentos, o histograma parecia mais típico

nova ilustração

Nesse caso, poderíamos chamar o padrão de Moiré , que é o aparecimento de faixas artificiais claras e escuras devido a um desalinhamento de duas escalas discretas.

No seu caso, no entanto, o padrão periódico não é um efeito artificial no histograma, mas um comportamento verdadeiramente periódico na função de massa de probabilidade. Enfim, achei útil mencionar esse padrão moiré relacionado.


2
Se você pesquisar um pouco no Google, encontrará muitos histogramas com padrões moiré semelhantes. Por exemplo, neste blog da SAS, este artigo sobre pesquisas com pássaros ou sobre estresse
Sextus

-1

Desculpe, não conheço um nome estabelecido, mas resolva sua segunda pergunta:

devo separar os valores ímpares e pares ou ajustar uma distribuição normal a todo o conjunto?

Eu acho que você deveria separá-los. Sua análise descobriu que o fator / preditor mais importante é se a entrada é ímpar ou par; portanto, para mesclá-las, seria desfocar as duas distribuições e torná-las menos úteis (*).

*: Obviamente, isso realmente depende da sua definição de útil. Estou abordando isso do ponto de vista de que você tem algumas entradas e deseja criar um modelo para prever alguma saída. Quando soubermos que é significativo, gostaria de dar ao modelo a dica de que a paridade de uma / algumas das entradas é importante.

A propósito, como na resposta de Martijn Weterings, quando eu já tinha histogramas irregulares como esse antes, isso estava relacionado à escolha do tamanho da lixeira. Isso me fez perceber que a experimentação com o tamanho da lixeira é mais uma ferramenta na caixa de ferramentas Lying With Stats :-)


Caro downvoter: você não concorda com algo em particular? Se sim, por favor, me eduque.
Darren Cook
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.