Você não usar k-médias para timeseries.
DTW não é minimizado pela média; O k-means pode não convergir e, mesmo se convergir, não produzirá um resultado muito bom. A média é um estimador de mínimos quadrados nas coordenadas. Minimiza a variação, não distâncias arbitrárias, e o k-means é projetado para minimizar a variação, não distâncias arbitrárias .
Suponha que você tenha duas séries temporais. Duas ondas senoidais, da mesma frequência, e um período de amostragem bastante longo; mas eles são deslocados por . Como o DTW distorce o tempo, ele pode alinhá-los para que correspondam perfeitamente, exceto o começo e o fim. A DTW atribuirá uma distância bastante pequena a essas duas séries. No entanto, se você calcular a média das duas séries, será um 0 simples - elas serão canceladas. A média não faz distorção dinâmica do tempo e perde todo o valor que a DTW recebeu. Nesses dados, o k-means pode não convergir e os resultados serão sem sentido. Os meios K realmente devem ser usados apenas com variância (= euclidiana ao quadrado) ou em alguns casos equivalentes (como cosseno, em dados normalizados de L2, onde a semelhança de cosseno éπo mesmo que distância euclidiana ao quadrado)2 -
Em vez disso, calcule uma matriz de distância usando o DTW e execute o cluster hierárquico, como o link único. Em contraste com o k-mean, a série pode até ter um comprimento diferente.