Estou usando o cluster hierárquico para analisar dados de séries temporais. Meu código é implementado usando a função MathematicaDirectAgglomerate[...]
, que gera clusters hierárquicos com as seguintes entradas:
uma matriz de distância D
o nome do método usado para determinar a ligação entre cluster.
Eu calculei a matriz de distância D usando a distância de Manhattan:
onde e n ≈ 150 é o número de pontos de dados em série meus tempo.
Minha pergunta é: está tudo bem em usar a ligação inter-cluster de Ward com uma matriz de distância de Manhattan? Algumas fontes sugerem que a ligação de Ward deve ser usada apenas com a distância euclidiana.
Observe que DirectAgglomerate[...]
calcula a ligação de Ward usando apenas a matriz de distância, não as observações originais. Infelizmente, não tenho certeza de como o Mathematica modifica o algoritmo original de Ward, que (pelo meu entendimento) funcionou minimizando a soma dos quadrados dos erros das observações, calculada com relação à média do cluster. Por exemplo, para um cluster consiste em um vetor de observações univariadas, Ward formulou a soma dos quadrados dos erros como:
(Outras ferramentas de software, como Matlab e R, também implementam o cluster de Ward usando apenas uma matriz de distância, para que a questão não seja específica do Mathematica.)