Este é um acompanhamento para esta pergunta. Atualmente, estou tentando implementar o índice C para encontrar um número quase ideal de clusters de uma hierarquia de clusters. Eu faço isso calculando o Índice C para cada etapa do cluster hierárquico (aglomerativo). O problema é que o índice C é mínimo (0 para ser exato) para agrupamentos muito degenerados. Considere isto:
Nesse caso, é a soma de todas as distâncias entre pares de observações no mesmo cluster em todos os clusters. Seja o número desses pares. e são as somas de distâncias mais baixas / mais altas em todos os pares de observações. Na primeira etapa do cluster hierárquico, as duas observações mais próximas (distância mínima) são mescladas em um cluster. Seja a distância entre essas observações. Agora, há um par de observações no mesmo cluster, então (todos os outros clusters são singletons). Consequentemente . O problema é que também é igual a, porque é a menor distância (é por isso que as observações foram mescladas primeiro). Portanto, para este caso, o C-Index é sempre 0. Ele permanece 0 enquanto apenas os clusters singleton são mesclados. Isso significa que o agrupamento ideal de acordo com o C-Index consistiria sempre em um grupo de clusters contendo duas observações e os demais singletons. Isso significa que o C-Index não é aplicável ao cluster hierárquico? Estou fazendo algo errado? Pesquisei bastante, mas não encontrei nenhuma explicação adequada. Alguém pode me indicar algum recurso disponível gratuitamente na internet? Ou, se não, pelo menos um livro que eu possa tentar obter na minha biblioteca da universidade?
Desde já, obrigado!