Preciso de algumas sugestões para o método de agrupamento (classificação não supervisionada) para um projeto de consultoria. Estou procurando um método que esperançosamente tenha as seguintes propriedades:
O assunto do meu estudo tem três propriedades. Um é representado por uma matriz de distância (não-euclidiana) e os outros dois estão na forma de vetores no espaço euclidiano. A matriz de distância vem de sequências e pode estar na forma de porcentagem de dissimilaridade ou outra medida da distância de sequências. O algoritmo deve ser capaz de pegar os vetores no espaço euclidiano e a distância não euclidiana como entrada. Por exemplo, o K-medoids pode funcionar com uma matriz de distância, mas o K-means não pode.
Gostaria que o algoritmo selecionasse o número de clusters e o peso para três propriedades automaticamente (com conhecimento e restrição anteriores).
Eu tenho informações de "centros de clusters" identificados anteriormente. Eu gostaria de incorporá-lo como valores anteriores ou iniciais.
Como estatístico, eu preferiria que o método tivesse uma função clara de probabilidade ou perda.
A coisa mais próxima que consigo pensar é ajustar um modelo de mistura na estrutura bayesiana usando o MCMC de salto reverso para determinar o número de clusters. Os vetores em R ^ d podem ser facilmente formulados com uma probabilidade normal, mas como lidar com a matriz de distância não está claro para mim. Posso restringir a média da probabilidade normal de cada observação de obter o MCMC funcionando, mas isso não tem um significado matemático / estatístico claro.
Alguém tem experiência com um problema semelhante? Sugestões para referências serão muito apreciadas!