A covariância (ou correlação ou cosseno) pode ser fácil e naturalmente convertida em distância euclidiana por meio da lei dos cossenos , porque é um produto escalar (= semelhança angular) no espaço euclidiano. Sabendo covariância entre duas variáveis i e j , bem como suas variações implica, automaticamente, sabendo d entre as variáveis: . (Que d 2 i jd2eu j= σ2Eu+ σ2j- 2 c o veu jd2eu jé diretamente proporcional à distância euclidiana quadrada usual : você obtém a última se usar a soma dos quadrados e a soma dos produtos cruzados no lugar das variações e da covariância. É claro que ambas as variáveis devem estar centradas inicialmente: falar em "covariâncias" é um alias para pensar em dados com meios removidos.)
Note que esta fórmula significa que uma covariância negativa é maior distância que uma covariância positiva (e esse é realmente o caso do ponto de vista geométrico, isto é, quando as variáveis são vistas como vetores no espaço sujeito ). Se você não deseja que o sinal da covariância desempenhe um papel, abula o sinal negativo. Ignorar o sinal negativo não é uma operação de "correção manual" e é garantido, quando necessário: se a matriz cov for definida positiva, a matriz abs (cov) também será definida positivamente; e, portanto, as distâncias obtidas pela fórmula acima irá ser verdadeiros euclideanos distâncias (distância Euclidiana é uma espécie particular de métrica de distância).
As distâncias euclidianas são universais em relação ao agrupamento hierárquico : qualquer método desse agrupamento é válido com euclidianos ou euclidianos ao quadrado d . Mas alguns métodos, por exemplo, ligação média ou ligação completa, podem ser usados com qualquer dissimilaridade ou semelhança (não apenas distâncias métricas). Portanto, você pode usar esses métodos diretamente com a matriz cov ou abs (cov) ou - apenas por exemplo - com a matriz de distância max (abs (cov)) - abs (cov) . Obviamente, os resultados do agrupamento dependem potencialmente da natureza exata da (des) similaridade usada.