Para comparar a semelhança de duas estruturas hierárquicas (semelhantes a árvores), são utilizadas medidas baseadas na ideia de correlação copenética. Mas é correto realizar a comparação de dendrogramas para selecionar o método "certo" ou a medida de distância no agrupamento hierárquico?
Há alguns pontos - obstáculos ocultos - em relação à análise hierárquica de cluster que eu consideraria muito importante :
- Nunca compare (para selecionar o método que fornece uma partição mais forte) os dendrogramas obtidos visualmente por diferentes métodos de aglomeração. Não vai dizer qual método é "melhor" para isso. Cada método tem sua própria aparência de árvore "prototípica": as árvores diferem consistentemente, mesmo quando os dados não têm estrutura de cluster ou estrutura de cluster aleatória. (E não creio que exista uma padronização ou medida que elimine essas diferenças intrínsecas.) No entanto, você pode comparar as aparências de dendrograma dos resultados produzidos pelo mesmo método, mas com dados diferentes. Máximo: aparência direta, comparando dendrogramas após diferentes métodos, é inaceitável .
- 1 Máximo: escolher um nível de corte contemplando uma aparência de dendrograma, embora possível, não é o melhor método para selecionar a partição e, para alguns métodos, pode ser enganador . Recomenda-se confiar em algum critério formal de cluster interno .
- Embora ninguém possa proibi-lo de "experimentar" medidas de distância ou métodos aglomerativos, é melhor selecionar a distância e o método conscientemente , sem tentar cegamente. A distância deve refletir os aspectos da diferença em que você está interessado e o método - é preciso estar ciente - implica um arquétipo específico de um cluster (por exemplo, a metáfora de um cluster de Ward é, eu diria, tipo ; cluster após ligação completa seria ser círculo [por hobby ou enredo]; agrupar após ligação única seria espectro [cadeia]; agrupar após método centróide seria a proximidade de plataformas [política]; um agrupamento de ligação médio é conceitualmente mais indiferenciado e seria geralmente classe unida ).
- Alguns métodos exigem medidas de distância certa e / ou tipo certo de dados. Ward e centróide, por exemplo, exigem logicamente a distância euclidiana (ao quadrado) - porque esses métodos se envolvem no cálculo de centróides no espaço euclidiano. E o cálculo de centróides geométricos é incongruente com, por exemplo, dados binários; os dados devem ser dimensionados / contínuos. Máximo: suposições e correspondência de dados / distância / método é uma pergunta muito importante e não tão fácil.
- O pré-processamento (como centralização, dimensionamento e outras formas de transformação de variáveis / recursos), o cálculo prévio de uma matriz de distância e o agrupamento também são questões extremamente importantes. Pode influenciar drasticamente os resultados. Pense no que o pré-processamento pode ajudá-lo e fará sentido do ponto de vista da interpretação. Além disso, nunca tenha vergonha de inspecionar cuidadosamente os dados graficamente antes de tentar fazer a análise de cluster.
- Nem todos os métodos de agrupamento aglomerativo podem ser vistos igualmente como uma classificação hierárquica ... por motivos filosóficos. Por exemplo, o método centróide fornece hierarquia em certo sentido, porque o centro de cluster é um recurso emergente e definidor de um cluster como um todo , e os clusters de mesclagem são impulsionados por esse recurso. A ligação completa, por outro lado, "descarta" ambos os sub-agrupamentos quando os mescla - em virtude do distanciamento entre os objetos individuais dos dois. Assim, o dendrograma de ligação completo é apenas uma história de coleta e não um tipo de taxonomia pai-filho .Máximo: a análise de cluster aglomerado hierárquico geralmente espera que você faça uma partição com base em seu resultado, em vez de vê-lo como taxonomia hierárquica.
- O cluster hierárquico é um algoritmo guloso típico que faz a melhor escolha entre as alternativas que aparecem em cada etapa, na esperança de chegar perto da solução ideal no final. No entanto, a "melhor" opção que aparece em uma etapa de alto nível provavelmente será mais pobre do que o ideal global teoricamente possível nessa etapa. Quanto maior o passo, maior a suboptimalidade, como regra. Dado que geralmente queremos poucos clusters, os últimos passos são importantes; e, como acabamos de dizer, espera-se que sejam relativamente pobres se o número de etapas for alto (digamos, milésima etapa). É por isso que o cluster hierárquico geralmente não é recomendado para grandes amostras de objetos (numerando milhares de objetos), mesmo que o programa possa lidar com uma matriz de distância tão grande.
Xeu jYeu j
1 implementações) e para não acumular. Para repetir, essas diferenças afetam apenas a forma / aparência geral do dendograma, e não os resultados do agrupamento. Mas a aparência do dendrograma pode influenciar sua decisão sobre o número de clusters. A moral é que seria seguro não confiar no dendograma no método de Ward, a menos que você saiba exatamente quais são esses coeficientes do seu programa e como interpretá-los corretamente.