Escolher a distância certa não é uma tarefa elementar. Quando queremos fazer uma análise de cluster em um conjunto de dados, resultados diferentes podem aparecer usando distâncias diferentes, por isso é muito importante ter cuidado em qual distância escolher, pois podemos criar um artefato falso bom que captura bem a variabilidade, mas na verdade sem sentido em nosso problema.
A distância euclidiana é apropriada quando tenho variáveis numéricas contínuas e quero refletir distâncias absolutas. Essa distância leva em consideração todas as variáveis e não remove redundâncias, portanto, se eu tivesse três variáveis que explicam o mesmo (estão correlacionadas), ponderaria esse efeito em três. Além disso, essa distância não é invariável à escala, então geralmente tenho que escalar anteriormente para usar a distância.
Exemplo de ecologia: Temos observações diferentes de muitas localidades, das quais os especialistas coletaram amostras de alguns fatores microbiológicos, físicos e químicos. Queremos encontrar padrões nos ecossistemas. Esses fatores têm uma alta correlação, mas sabemos que todos são relevantes, portanto, não queremos remover essas redundâncias. Usamos a distância euclidiana com dados em escala para evitar o efeito de unidades.
A distância de Mahalanobis é apropriada quando tenho variáveis numéricas contínuas e quero refletir distâncias absolutas, mas queremos remover redundâncias. Se tivermos variáveis repetidas, seu efeito repetitivo desaparecerá.
A família Hellinger , Species Profile e Chord distance são apropriadas quando queremos enfatizar as diferenças entre as variáveis, quando queremos diferenciar perfis. Essas distâncias pesam em quantidades totais de cada observação, de tal forma que as distâncias são pequenas quando variáveis por variáveis, os indivíduos são mais semelhantes, embora em magnitudes absolutas fosse muito diferente. Cuidado! Essas distâncias refletem muito bem a diferença entre perfis, mas perdem o efeito de magnitude. Eles podem ser muito úteis quando temos diferentes tamanhos de amostra.
Exemplo de ecologia: queremos estudar a fauna de muitas terras e temos uma matriz de dados de um inventário do gastrópode (locais de amostragem em linhas e nomes de espécies em colunas). A matriz é caracterizada por ter muitos zeros e magnitudes diferentes, porque algumas localidades têm algumas espécies e outras têm outras espécies. Poderíamos usar a distância de Hellinger.
Bray-Curtis é bastante semelhante, mas é mais apropriado quando queremos diferenciar perfis e também levar em consideração as magnitudes relativas.