Requisitos para armazenamento em cluster hierárquico
O agrupamento hierárquico pode ser usado com medidas arbitrárias de similaridade e dissimilaridade. (A maioria das ferramentas espera uma dissimilaridade, mas permitirá valores negativos - cabe a você garantir se os valores pequenos ou grandes serão os preferidos.)
Somente métodos baseados em centróides ou variância (como o método de Ward) são especiais e devem ser usados com euclidianos ao quadrado. (Para entender o porquê, estude essas ligações com cuidado.)
O vínculo único, o vínculo médio e o vínculo completo não são muito afetados; ainda será o mínimo / médio / máximo das divergências entre pares.
Correlação como medida de distância
Se você pré-processar seus dados ( observações, recursos de ), de modo que cada recurso tenha e (o que não permite recursos constantes!), A correlação será reduzida para cosseno:npμ = 0σ= 1
Corr ( X, Y) = Cov ( X, Y)σXσY= E [ ( X- μX) ( Y- μY) ]σXσY= E [ XY] = 1n⟨ X, Y⟩
Nas mesmas condições, a distância euclidiana ao quadrado também se reduz ao cosseno:
d2Euclides( X, Y) = ∑ ( XEu- YEu)2=∑X2i+∑Y2i−2∑XiYi=2n−2⟨X,Y⟩=2n[1−Corr(X,Y)]
Portanto, a menos que seus dados sejam degenerados, o uso de correlação para armazenamento em cluster hierárquico deve ser bom. Apenas pré-processe como explicado acima e use a distância euclidiana ao quadrado.