Então, percebo que isso já foi perguntado antes: por exemplo, quais são os casos de uso relacionados à análise de cluster de diferentes métricas de distância? mas achei as respostas um tanto contraditórias ao sugerido que deveriam ser possíveis na literatura.
Recentemente, li dois artigos que mencionam o uso do algoritmo kmeans com outras métricas, por exemplo, editar a distância entre as cordas e a "Distância do movimentador da terra" entre as distribuições. Dado que esses trabalhos mencionam o uso de kmeans com outras métricas sem especificar como , particularmente quando se trata de calcular a média de pontos, sugere-me que talvez exista algum método "padrão" para lidar com isso que simplesmente não estou escolhendo em cima.
Tomemos, por exemplo, este artigo , que fornece uma implementação mais rápida do algoritmo k-means. Citando o parágrafo 4 da introdução, o autor diz que seu algoritmo "pode ser usado com qualquer métrica de distância da caixa preta" e, no próximo parágrafo, ele menciona editar a distância como um exemplo específico. No entanto, seu algoritmo ainda calcula a média de um conjunto de pontos e não menciona como isso pode afetar os resultados com outras métricas (estou especialmente perplexo com a forma como a média funcionaria com a distância de edição).
Este outro artigo descreve o uso de k-means para agrupar mãos de pôquer para uma abstração do Texas Hold'em. Se você pular para a página 2 na parte inferior da coluna da esquerda, a gravação do autor "e o k-means serão usados para calcular uma abstração com o número desejado de clusters usando a Distância do Movimentador da Terra entre cada par de histogramas como a métrica da distância".
Não estou realmente procurando alguém para me explicar esses documentos, mas estou perdendo algum método padrão para usar o k-means com outras métricas? A média padrão da distância do movedor de terra parece que poderia funcionar heuristicamente, mas a distância de edição parece não se encaixar no molde. Agradeço qualquer insight que alguém possa dar.
(edit) : Fui em frente e tentei o k-means nos histogramas de distribuição usando a distância do earth earth (semelhante ao que está no jornal de pôquer) e parecia ter funcionado bem, os clusters que saíam pareciam muito bons para o meu caso de uso. Para calcular a média, apenas tratei os histogramas como vetores e calculei a média da maneira normal. A única coisa que notei é que a soma de todos os pontos das distâncias aos meios nem sempre diminuiu de maneira monótona. Na prática, porém, ele se instalaria em um min local dentro de 10 iterações, apesar de problemas monótonos. Vou assumir que isso foi o que eles fizeram no segundo artigo, a única questão que resta então é: como diabos você mediaria ao usar algo como distância de edição?