Como se mede a não uniformidade de uma distribuição?


28

Estou tentando criar uma métrica para medir a não uniformidade de uma distribuição para um experimento que estou executando. Eu tenho uma variável aleatória que deve ser distribuída uniformemente na maioria dos casos, e eu gostaria de poder identificar (e possivelmente medir o grau de) exemplos de conjuntos de dados em que a variável não é distribuída uniformemente dentro de alguma margem.

Um exemplo de três séries de dados, cada uma com 10 medições representando a frequência da ocorrência de algo que estou medindo pode ser algo como isto:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Eu gostaria de poder distinguir distribuições como c daquelas como aeb, e medir o desvio de c de uma distribuição uniforme. Da mesma forma, se houver uma métrica para a uniformidade de uma distribuição (desvio padrão próximo a zero?), Talvez eu possa usá-la para distinguir aquelas com alta variação. No entanto, meus dados podem ter apenas um ou dois valores discrepantes, como o exemplo c acima, e não tenho certeza se isso será facilmente detectável dessa maneira.

Posso hackear algo para fazer isso em software, mas estou procurando métodos / abordagens estatísticas para justificar isso formalmente. Tomei uma aula anos atrás, mas as estatísticas não são a minha área. Parece algo que deve ter uma abordagem bem conhecida. Desculpe se algo disso é completamente tonto. Desde já, obrigado!


Respostas:


18

Se você tiver não apenas as frequências, mas as contagens reais, poderá usar um de ajuste de para cada série de dados. Em particular, você deseja usar o teste para uma distribuição uniforme e discreta . Isso fornece um bom teste , que permite descobrir quais séries de dados provavelmente não foram geradas por uma distribuição uniforme, mas não fornecem uma medida de uniformidade.χ2

Existem outras abordagens possíveis, como calcular a entropia de cada série - a distribuição uniforme maximiza a entropia; portanto, se a entropia for suspeita baixa, você concluiria que provavelmente não possui uma distribuição uniforme. Isso funciona como uma medida de uniformidade em algum sentido.

Outra sugestão seria usar uma medida como a divergência Kullback-Leibler , que mede a semelhança de duas distribuições.


Tenho algumas perguntas sobre a sua resposta: 1. Por que você declara que o qui-quadrado não fornece uma medida de uniformidade? Um teste de ajuste com distribuição uniforme não é uma medida de uniformidade? 2. Como podemos saber quando devemos usar o qui-quadrado ou a entropia?
Kanzen_master

@kanzen_master: Eu acho que a estatística do qui-quadrado pode ser vista como uma medida de uniformidade, mas tem algumas desvantagens, como falta de convergência, dependência das caixas colocadas arbitrariamente, que o número de contagens esperadas nas células precisa ser suficientemente grande, etc. Qual medida / teste a ser usado é uma questão de gosto, e a entropia também não deixa de ter seus problemas (em particular, existem muitos estimadores diferentes da entropia de uma distribuição). Para mim, a entropia parece uma medida menos arbitrária e é mais fácil de interpretar.
MånsT

8

Além das boas idéias do @MansT, você pode propor outras medidas, mas isso depende do que você quer dizer com "não uniformidade". Para simplificar, vejamos 4 níveis. É fácil definir uniformidade perfeita:

25 25 25 25

mas qual das alternativas a seguir é mais não uniforme?

20 20 30 30 ou 20 20 25 35

ou são igualmente não uniformes?

se você acha que eles são igualmente não uniformes, você pode usar uma medida com base na soma dos valores absolutos dos desvios do normal, dimensionada pelo máximo possível. Então o primeiro é 5 + 5 + 5 + 5 = 20 e o segundo é 5 + 5 + 0 + 10 = 20. Mas se você acha que o segundo é mais não uniforme, você pode usar algo com base nos desvios ao quadrado. primeiro recebe 25 + 25 + 25 + 25 = 100 e o segundo recebe 25 + 25 + 0 + 100 = 150.


1
Você parece estar interpretando "uniformemente distribuído" como "igual", Peter. Se essa é a intenção do OP, é um ponto válido a ser levantado, mas realmente deve aparecer como um comentário à pergunta.
whuber

Oi @whuber Isso parecia ser o que ele queria dizer com a pergunta. O que mais isso pode significar?
Peter Flom - Restabelece Monica

2
"Igual" significa que o CDF é para , para enquanto "uniforme" significa para . Você define "uniformidade perfeita" no primeiro sentido, enquanto o sentido estatístico padrão é o segundo. F(x)=1xμF(x)=0x<μF(x)=(xα)/θx[α,α+θ]
whuber

@whuber, parece-me que a primeira coisa está mais próxima do que o pôster original queria dizer com "uniforme". Olhando novamente, parece que ele / ela estava usando "uniforme" para significar "baixa variação".
Macro

É isso mesmo, Macro: não podemos realmente dizer. A questão precisa de esclarecimentos antes de merecer uma resposta, IMHO. A resposta aceita sugere que o OP usou "uniforme" no sentido estatístico padrão.
whuber

6

Aqui está uma heurística simples: se você assume elementos em qualquer soma vetorial como (ou simplesmente normaliza cada elemento com a soma para conseguir isso), a uniformidade pode ser representada pela norma L2, que varia de a , com sendo a dimensão dos vetores.11d1d

O limite inferior corresponde à uniformidade e o limite superior ao vetor -hot.1d1

Para dimensionar isso para uma pontuação entre e , você pode usar , em que é a norma L2.01nd1d1n

Um exemplo modificado a partir do seu com elementos que somam e todos os vetores com a mesma dimensão para simplificar:1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

O seguinte produzirá , e para as linhas:0.00280.00510.4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
Lp

@ whuber que eu não conheço e não conheço nenhuma pesquisa sobre isso. Basicamente, é algo que eu usei como heurística que pode se encaixar no que o OP está buscando, e eu realmente não afirmo que seja uma abordagem preferida.
precisa saber é o seguinte

@ whuber - Você poderia descobrir teoricamente por que isso funciona tão bem? Eu preciso citar isso.
Ketan

@ user495285 - Parece funcionar diretamente com valores, e não apenas com frequências. Na sua experiência, é melhor usá-lo apenas com frequências ou é adequado usá-lo diretamente em um vetor.
Ketan

L2χ2

0

Tropecei sobre isso recentemente, e para adicionar à resposta de @ user495285, tanto quanto eu entendo:

RnLppRnp

L2p

nd1d1
nL2d

Creio que a utilidade das medidas geométricas se aplica quando se assume que cada posição (dimensão) do espaço descrito é medida em escalas equivalentes, por exemplo, todas as contagens de distribuição potencialmente igual. As mesmas suposições subjacentes à mudança de bases como PCA / SVD provavelmente são semelhantes aqui. Mas, novamente, eu não sou matemático, então deixarei isso em aberto para os mais informados.


Parece útil. Você poderia me indicar alguma referência, para que eu possa entender melhor isso? Eu realmente preciso citar isso.
Ketan

Você pode citar qualquer texto de álgebra linear que cubra a norma Lp; este é um assunto muito comum em geometria: como calcular uma distância entre dois pontos em um espaço N-dimensional. Você pode nem precisar citá-lo, dependendo do seu campo.
precisa saber é
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.