Eu tenho alguns pontos de dados, cada um contendo 5 vetores de resultados discretos aglomerados, os resultados de cada vetor gerados por uma distribuição diferente (o tipo específico do qual não tenho certeza, meu melhor palpite é Weibull, com o parâmetro de forma variando em algum ponto exponencial à potência lei (1 a 0, aproximadamente).)
Eu estou olhando para usar um algoritmo de cluster como K-Means para colocar cada ponto de dados em grupos com base nos atributos de suas 5 distribuições de componentes. Fiquei me perguntando se existem métricas de distância estabelecidas que seriam elegantes para esses fins. Até agora, eu tive três idéias, mas não sou um estatístico experiente (mais um cientista iniciante em mineração de dados), por isso tenho pouca ideia de quão longe estou do caminho.
Como não sei exatamente com que tipo de distribuição estou lidando, minha abordagem de força bruta para o problema foi dividir cada uma das distribuições (eu tenho 5 por ponto) em cada um de seus respectivos valores de dados discretos. cada um correspondente ao mesmo comprimento com zeros no final) e use cada um desses valores como um atributo separado para o próprio ponto de dados. Tentei usar a distância de Manhattan e a distância euclidiana como métricas com base nesses atributos, tanto para o PDF quanto para o CDF.
Novamente, como não sei que tipos de distribuição tenho, imaginei que, se fosse medir a distância entre as distribuições gerais, poderia usar algum tipo de teste não paramétrico emparelhado entre distribuições, como o teste KS , para descobrir a probabilidade de que as distribuições fornecidas tenham sido geradas por diferentes PDFs. Eu pensei que minha primeira opção (acima) usando a distância de Manhattan seria uma espécie de limite superior ao que eu poderia obter usando essa abordagem (já que a estatística KS é o valor absoluto máximo da diferença dos CDFs, onde a distância de Manhattan é a soma dos valores absolutos das diferenças nos PDFs). Considerei então combinar os diferentes KS-Statistics ou P-values dentro de cada ponto de dados, provavelmente usando a distância euclidiana, mas possivelmente apenas usando o máximo de todos esses valores.
Por fim, em um esforço para usar o pouco que posso interpretar sobre a forma das distribuições, pensei em tentar estimar os parâmetros das distribuições como se encaixassem em uma curva de Weibull. Eu poderia então agrupar as distribuições com base nas diferenças nos dois parâmetros da distribuição Weibull, lambda e k (escala e forma), provavelmente normalizados de acordo com a variação desses parâmetros ou algo do tipo. Este é o único caso em que pensei ter uma idéia de como normalizar os parâmetros.
Então, minha pergunta é: que medida / métodos você recomendaria para agrupar distribuições? Estou no caminho certo com alguma dessas coisas? O K-Means é um bom algoritmo para usar?
Edit: Esclarecimento de dados.
Cada ponto de dados (cada objeto Obj
que eu quero agrupar) realmente contém literalmente 5 vectors
dados. Eu sei que existem exatamente 5 fases em que esses objetos podem estar. Diremos (para fins de simplificação) que cada vetor é length N
.
Cada um destes vectores (chamá-la vector i
) é uma distribuição de probabilidade com número inteiro x-values
de 1 a N, em que cada valor y correspondente representa a probabilidade de medir value x
em phase i
do objecto Obj
. N é então o valor x máximo que eu espero medir em qualquer fase do objeto (esse não é realmente um número fixo na minha análise).
Eu determino essas probabilidades da seguinte maneira:
Eu tomo um único
Obj
e colocá-lo emphase i
parak trials
, fazer uma medição em cada tentativa. Cada medida é um único número inteiro. Eu faço isso para cada uma das 5 fases de um único objeto e, por sua vez, para cada objeto. Meus dados brutos de medição para um único objeto podem se parecer com:Vetor 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
Vetor 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]
...
Vetor 5. [16, ... ..., 0]
Em seguida, normalizo cada um dos vetores por conta própria, com relação ao número total de medições nesse vetor determinado. Isto dá-me uma distribuição de probabilidades em que vectorial, em que cada valor y correspondente representa a probabilidade de medir
value x
emphase i
.