Estou tentando criar uma métrica para medir a não uniformidade de uma distribuição para um experimento que estou executando. Eu tenho uma variável aleatória que deve ser distribuída uniformemente na maioria dos casos, e eu gostaria de poder identificar (e possivelmente medir o grau de) exemplos de conjuntos de dados em que a variável não é distribuída uniformemente dentro de alguma margem.
Um exemplo de três séries de dados, cada uma com 10 medições representando a frequência da ocorrência de algo que estou medindo pode ser algo como isto:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Eu gostaria de poder distinguir distribuições como c daquelas como aeb, e medir o desvio de c de uma distribuição uniforme. Da mesma forma, se houver uma métrica para a uniformidade de uma distribuição (desvio padrão próximo a zero?), Talvez eu possa usá-la para distinguir aquelas com alta variação. No entanto, meus dados podem ter apenas um ou dois valores discrepantes, como o exemplo c acima, e não tenho certeza se isso será facilmente detectável dessa maneira.
Posso hackear algo para fazer isso em software, mas estou procurando métodos / abordagens estatísticas para justificar isso formalmente. Tomei uma aula anos atrás, mas as estatísticas não são a minha área. Parece algo que deve ter uma abordagem bem conhecida. Desculpe se algo disso é completamente tonto. Desde já, obrigado!