Eu tenho um conjunto de dados de séries temporais. Cada série cobre o mesmo período, embora as datas reais de cada série cronológica nem sempre sejam exatamente alinhadas.
Ou seja, se as séries temporais fossem lidas em uma matriz 2D, seria algo como isto:
date T1 T2 T3 .... TN
1/1/01 100 59 42 N/A
2/1/01 120 29 N/A 42.5
3/1/01 110 N/A 12 36.82
4/1/01 N/A 59 40 61.82
5/1/01 05 99 42 23.68
...
31/12/01 100 59 42 N/A
etc
Quero escrever um script R que separe as séries temporais {T1, T2, ... TN} em 'famílias' em que uma família é definida como um conjunto de séries que "tendem a se solidarizar".
Para a parte 'clustering', precisarei selecionar / definir um tipo de medida de distância. Não tenho muita certeza de como fazer isso, já que estou lidando com séries temporais, e um par de séries que podem se mover em simpatia por um intervalo, pode não fazê-lo em um intervalo subsequente.
Tenho certeza de que há pessoas muito mais experientes / inteligentes do que eu aqui, por isso ficaria grato por todas as sugestões, idéias sobre qual algoritmo / heurística usar para a medida de distância e como usá-lo no agrupamento de séries temporais.
Meu palpite é que NÃO existe um método estatístico robusto estabelecido para fazer isso, então eu ficaria muito interessado em ver como as pessoas abordam / resolvem esse problema - pensando como um estatístico.