Como agrupar séries temporais?


22

Eu tenho uma pergunta sobre análise de cluster. Existem 3000 empresas, que precisam ser agrupadas de acordo com o uso de energia ao longo de 5 anos. Cada empresa possui valores para cada hora durante 5 anos. Gostaria de descobrir se algumas empresas têm o mesmo padrão de uso de energia ao longo do período. Os resultados devem ser usados ​​para prever diariamente o uso de energia. Se você tiver algumas idéias de como agrupar séries temporais no SPSS, compartilhe comigo.


1
Eu sugiro que você verifique os links relacionados no lado direito da página. Existem algumas questões de natureza muito semelhante, consulte É possível fazer cluster de séries temporais com base no formato da curva? e Modelagem de dados longitudinais em que o efeito do tempo varia em forma funcional entre indivíduos por apenas dois exemplos.
Andy W

A similaridade de proc no SAS pode agrupar séries temporais.
meteorologista

Respostas:


11

A) Gaste muito tempo no pré-processamento dos dados. O pré-processamento é 90% do seu trabalho.

B) Escolha uma medida de similaridade apropriada para as séries temporais. Por exemplo, a distância de passagem do limiar pode ser uma boa escolha aqui. Você provavelmente não desejará uma distância dinâmica de distorção de tempo, a menos que tenha fusos horários diferentes. A passagem do limite pode ser mais apropriada para detectar padrões temporais, sem prestar atenção à magnitude real (que provavelmente será muito diferente de empresa para empresa).

C) Agrupe a matriz de dissimilaridade resultante usando métodos como cluster hierárquico ou DBSCAN que podem trabalhar com funções de distância arbitrárias.


você pode explicar por que a distância dinâmica da distorção no tempo não é uma boa opção para o agrupamento de séries temporais?
precisa

Essa não foi uma afirmação geral. Se é bom ou não, depende se você deseja permitir a distorção do tempo ou não.
Anony-Mousse - Reponha Monica em 25/11

7

Convém consultar a Previsão de séries horárias com periodicidade diária, semanal e anualpara uma discussão de dados horários envolvendo dados diários e feriados / regressores. Você tem 5 anos de dados enquanto a outra discussão envolveu 883 valores diários. O que eu sugeriria é que você pudesse criar uma previsão horária incorporando regressores, como dia da semana; semana do ano e feriados usando totais diários como um preditor adicional. Dessa forma, você teria 24 modelos para cada uma das 3.000 empresas. Agora, o que você quer fazer é por hora, estimar os 3.000 modelos usando uma estrutura comum do ARIMAX, contabilizando o padrão de resposta em torno de cada um dos regressores, o dia da semana, alterações no dia da semana parâmetros e indicadores semanais ao isolar outliers. Em seguida, você pode estimar os parâmetros globalmente usando todas as 3000 empresas. Realize um teste de comida http://en.wikipedia.org/wiki/Chow_testpara constância de parâmetros e após rejeição agrupam as empresas em grupos homogêneos. Eu me referi a isso como análise de cluster de dimensão única. Como o SPSS possui recursos muito limitados em séries temporais, convém procurar outro software.


1
"baunilha" parece uma palavra estranha para usar em R; não está claro na tradução na terminologia R mais usual. Qualquer distinção entre os pacotes base R e extra do CRAN realmente não incomoda os usuários experientes, ou mesmo os novatos, pois são igualmente gratuitos e igualmente acessíveis. Minha impressão é que alguém que teve acesso ao SPSS pode dizer com bastante facilidade que algo não é possível no SPSS atualmente sem programação; dizer o mesmo sobre R requer familiaridade com todos os pacotes de séries temporais.
Nick Cox
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.