Abaixo está um histograma de alguns dados, os compartimentos são inteiros e os outros parâmetros são irrelevantes.
Como você pode ver, parece haver duas distribuições normais separadas, mas sobrepostas, para números ímpares e pares.
A probabilidade de ser um número par é 1/3, da mesma forma 2/3 para um número ímpar.
Não tenho idéia do real significado estatístico disso para ser honesto, então estou tentando descobrir o que é aprender mais, mas não consigo encontrar nada, tentei tantos termos de pesquisa para encontrar isso e até buscas reversas de imagens, mas tudo o que recebo são informações sobre distribuições multimodais, etc. e não consigo encontrar nada sobre quando as distribuições multimodais realmente se sobrepõem dessa maneira
Existe um nome para isso?
Para os interessados, os dados são de 1.000.000 de jogos aleatórios de goofspiel (N = 13) usando o script matlab
N = 1000000;
random = zeros(1,N);
for i = 1 : N
pc = randperm(13);
p1 = randperm(13);
p2 = randperm(13);
random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')
Um exemplo mais geral (embora artificial) seria o seguinte
a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
if(d(i))
c(i) = b(i);
end
end
bar(c)
Como no primeiro exemplo, há duas distribuições sobrepostas (triangular e normal), mas neste caso, em vez de alternar em cada ponto, é aleatório.
Eu sei que este é um exemplo exagerado (e nem mesmo um histograma), mas deve haver exemplos desse tipo de coisa realmente acontecendo com dados estatísticos, certo? Então, novamente, talvez não, ou é completamente irrelevante?
A questão real é dupla:
A questão geral - Como é chamado esse tipo de "coisa"? - para que eu (ou qualquer outra pessoa que possa se deparar com isso) possa aprender mais sobre isso e se precisar fazer algum ajuste.
A questão, especificamente relacionada ao meu primeiro conjunto de dados - devo separar os valores ímpares e pares ou ajustar uma distribuição normal a todo o conjunto?