A seguir, é descrito o que estou tentando realizar, mas é possível que uma declaração alternativa de problema possa descrever meu objetivo:
eu quero
divida os seguintes números em grupos em que as variações dos números em cada grupo não são muito grandes e as diferenças entre as médias dos grupos não são muito pequenas
compare a distribuição obtida no final com as "perfeitas" e veja como é "diferente" de ser perfeita.
A explicação do objetivo de Layman
Estou tentando calcular a distribuição de renda e determinar os "escalões de renda" em que cada população está. O escalão de renda deve se auto-ajustar com base nos dados de entrada.
Meu objetivo é medir ou calcular a diferença entre os escalões de renda. Suponho que haverá muitos colchetes e quero ver a que distância cada camada está "separada".
Aqui está uma amostra da renda horária para um conjunto de amostras de uma população de 20 e uma renda total de 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Como posso usar conceitos matemáticos para agrupar, classificar e analisar dados que atuam como distribuição de renda em uma determinada população?
No final do cálculo, quero determinar a distribuição de renda em camadas, onde uma distribuição perfeita se pareceria com algo assim
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
ou isto:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Questão
Como devo analisar os grupos populacionais e medir a lacuna de uma maneira que me diga quanto é necessário para torná-la mais parecida com os dois últimos conjuntos de modelos listados acima?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.