Quais métodos existem para o cálculo da distância em cluster? quando devemos usar cada um deles?


7

Quais métodos existem para o cálculo da distância em cluster? como Manhattan, Euclidiana, etc.? Além disso, não sei quando devo usá-los. Eu sempre uso a distância euclidiana.

Respostas:


8

Bem, há um livro chamado

Deza, Michel Marie e Elena Deza.
Enciclopédia de distâncias .
Springer Berlin Heidelberg, 2009. ISBN 978-3-642-00233-5

Acho que esse livro responde à sua pergunta melhor do que eu ...

Escolha a função de distância mais apropriada para seus dados.

Por exemplo, na latitude e longitude, use uma distância como Haversine. Se você possui CPU suficiente, pode usar aproximações melhores, como a da Vincenty.

Nos histogramas, use uma distância de distribuição. Motores de terra (EMD), divergências, interseção do histograma, distâncias quadráticas da forma, etc.

Em dados binários, por exemplo, Jaccard, Dice ou Hamming fazem muito sentido.

Em dados esparsos não binários, como texto, várias variantes de pesos tf-idf e cosseno são populares.

Provavelmente, a melhor ferramenta para experimentar diferentes funções de distância e agrupamento é o ELKI. Possui muitas distâncias e muitos algoritmos de agrupamento que podem ser usados ​​com todas essas distâncias (por exemplo, OPTICS). Por exemplo, a distância de Canberra funcionou muito bem para mim. Isso é provavelmente o que eu escolheria como "padrão".


1

Existem dois métodos amplamente utilizados para calcular a distância no domínio do clustering. Eles são:

  • Distância Manhattan
  • Distância euclidiana

No entanto, não há uma diretiva clara sobre qual das opções acima deve ser selecionada, portanto, esta postagem pode ser útil para você em relação à mesma. Geralmente, a métrica da distância depende da declaração do problema e do tipo de dados.

Por exemplo, a distância euclidiana e cosseno são usadas quando os dados são densos e esparsos, respectivamente.

Eu sempre uso a distância euclidiana.

Eu não culpo você por isso. No entanto, ao calcular a distância cartesiana (como no caso dos sistemas Recomendação), a distância euclidiana é preferida.


0

Quero destacar que, além das distâncias bem conhecidas: Distância Manhattan Distância Euclidiana

O kl-d simétrico pode ser usado quando você estiver agrupando distribuições.


0

Qual função de distância usar depende da própria geometria dos dados. Em alguns casos, você pode plotar seus dados e visualizar e tomar decisões, mas em problemas do mundo real, na maioria das vezes não é possível.

Para a maioria dos algoritmos de cluster, como o Kmeans, desde que uma função de distância seja uma métrica, você pode usá-la. Existem métodos para aprender uma métrica de acordo com a geometria dos dados que você pode usar para agrupar os dados.

O aprendizado métrico está intimamente relacionado à redução da dimensionalidade.

Se você estiver usando o MATLAB, verifique este kit de ferramentas .


O k-significa funciona apenas com divergências de Bregman, não com métricas arbitrárias. Por causa da média não otimizar métricas arbitrárias.
parou - anony-Mousse

O que significa quando você diz - significa não otimizar? Adicione uma fonte, por favor.
P16

Procure "por que o k-significa funciona apenas com a distância euclidiana".
parou - anony-Mousse
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.