Comparando dendrogramas hierárquicos de agrupamento obtidos por diferentes distâncias e métodos

[O título inicial "Medição de similaridade para árvores de cluster hierárquicas" foi posteriormente alterado por @ttnphns para refletir melhor o tópico]

Estou realizando várias análises hierárquicas de cluster em um quadro de dados de registros de pacientes (por exemplo, semelhante a http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

Estou experimentando diferentes medidas de distância , diferentes pesos de parâmetros e diferentes métodos hierárquicos , para entender seu impacto nos aglomerados finais / estrutura / visão da árvore (dendrograma). Minha pergunta é se existe um cálculo / medida padrão para calcular a diferença entre diferentes árvores hierárquicas e como implementá-lo em R (por exemplo, para quantificar que algumas árvores são quase idênticas e que outras são drasticamente diferentes).

— Wouter
fonte

Para comparar a semelhança de duas estruturas hierárquicas (semelhantes a árvores), são utilizadas medidas baseadas na ideia de correlação copenética. Mas é correto realizar a comparação de dendrogramas para selecionar o método "certo" ou a medida de distância no agrupamento hierárquico?

Há alguns pontos - obstáculos ocultos - em relação à análise hierárquica de cluster que eu consideraria muito importante :

Nunca compare (para selecionar o método que fornece uma partição mais forte) os dendrogramas obtidos visualmente por diferentes métodos de aglomeração. Não vai dizer qual método é "melhor" para isso. Cada método tem sua própria aparência de árvore "prototípica": as árvores diferem consistentemente, mesmo quando os dados não têm estrutura de cluster ou estrutura de cluster aleatória. (E não creio que exista uma padronização ou medida que elimine essas diferenças intrínsecas.) No entanto, você pode comparar as aparências de dendrograma dos resultados produzidos pelo mesmo método, mas com dados diferentes. Máximo: aparência direta, comparando dendrogramas após diferentes métodos, é inaceitável .
$^1$ Máximo: escolher um nível de corte contemplando uma aparência de dendrograma, embora possível, não é o melhor método para selecionar a partição e, para alguns métodos, pode ser enganador . Recomenda-se confiar em algum critério formal de cluster interno .
Embora ninguém possa proibi-lo de "experimentar" medidas de distância ou métodos aglomerativos, é melhor selecionar a distância e o método conscientemente , sem tentar cegamente. A distância deve refletir os aspectos da diferença em que você está interessado e o método - é preciso estar ciente - implica um arquétipo específico de um cluster (por exemplo, a metáfora de um cluster de Ward é, eu diria, tipo ; cluster após ligação completa seria ser círculo [por hobby ou enredo]; agrupar após ligação única seria espectro [cadeia]; agrupar após método centróide seria a proximidade de plataformas [política]; um agrupamento de ligação médio é conceitualmente mais indiferenciado e seria geralmente classe unida ).
Alguns métodos exigem medidas de distância certa e / ou tipo certo de dados. Ward e centróide, por exemplo, exigem logicamente a distância euclidiana (ao quadrado) - porque esses métodos se envolvem no cálculo de centróides no espaço euclidiano. E o cálculo de centróides geométricos é incongruente com, por exemplo, dados binários; os dados devem ser dimensionados / contínuos. Máximo: suposições e correspondência de dados / distância / método é uma pergunta muito importante e não tão fácil.
O pré-processamento (como centralização, dimensionamento e outras formas de transformação de variáveis / recursos), o cálculo prévio de uma matriz de distância e o agrupamento também são questões extremamente importantes. Pode influenciar drasticamente os resultados. Pense no que o pré-processamento pode ajudá-lo e fará sentido do ponto de vista da interpretação. Além disso, nunca tenha vergonha de inspecionar cuidadosamente os dados graficamente antes de tentar fazer a análise de cluster.
Nem todos os métodos de agrupamento aglomerativo podem ser vistos igualmente como uma classificação hierárquica ... por motivos filosóficos. Por exemplo, o método centróide fornece hierarquia em certo sentido, porque o centro de cluster é um recurso emergente e definidor de um cluster como um todo , e os clusters de mesclagem são impulsionados por esse recurso. A ligação completa, por outro lado, "descarta" ambos os sub-agrupamentos quando os mescla - em virtude do distanciamento entre os objetos individuais dos dois. Assim, o dendrograma de ligação completo é apenas uma história de coleta e não um tipo de taxonomia pai-filho .Máximo: a análise de cluster aglomerado hierárquico geralmente espera que você faça uma partição com base em seu resultado, em vez de vê-lo como taxonomia hierárquica.
O cluster hierárquico é um algoritmo guloso típico que faz a melhor escolha entre as alternativas que aparecem em cada etapa, na esperança de chegar perto da solução ideal no final. No entanto, a "melhor" opção que aparece em uma etapa de alto nível provavelmente será mais pobre do que o ideal global teoricamente possível nessa etapa. Quanto maior o passo, maior a suboptimalidade, como regra. Dado que geralmente queremos poucos clusters, os últimos passos são importantes; e, como acabamos de dizer, espera-se que sejam relativamente pobres se o número de etapas for alto (digamos, milésima etapa). É por isso que o cluster hierárquico geralmente não é recomendado para grandes amostras de objetos (numerando milhares de objetos), mesmo que o programa possa lidar com uma matriz de distância tão grande.

$X_{ij}$ $Y_{ij}$

$^1$ implementações) e para não acumular. Para repetir, essas diferenças afetam apenas a forma / aparência geral do dendograma, e não os resultados do agrupamento. Mas a aparência do dendrograma pode influenciar sua decisão sobre o número de clusters. A moral é que seria seguro não confiar no dendograma no método de Ward, a menos que você saiba exatamente quais são esses coeficientes do seu programa e como interpretá-los corretamente.

— ttnphns
fonte

Eu posso segundo praticamente tudo isso. Dois pontos que quero acrescentar: A) o que você parece fazer é algum tipo de ajuste excessivo . Ao avaliar sistematicamente medidas, pesos e métodos, existe um alto risco de que os parâmetros que você finalize sejam altamente específicos para seus dados atuais e possam ser inúteis em outros dados ou mesmo em dados posteriores. B) de que serve saber a semelhança dos dendrogramas? Considere o que você deseja fazer com eles depois e tente avaliar no resultado final. A avaliação de resultados intermediários pode ser enganosa.

— Anony-Mousse

Se você ainda está interessado no tópico, pensei que você poderia achar útil minha resposta recente no DS SE , especialmente porque oferece uma cobertura, embora limitada, de abordagens freqüentistas e bayesianas para modelos tópicos hierárquicos (com informações de classe incorporadas) e selecionando medidas de similaridade .

— Aleksandr Blekh

@ttnphns, Você poderia explicar em mais detalhes como usar o "coeficiente de coligação" para comparar duas classificações hierárquicas?

— Bassir