Como usar a correlação de Pearson corretamente com séries temporais

Eu tenho duas séries temporais (ambas suaves) que gostaria de correlacionar para ver como elas estão correlacionadas.

Pretendo usar o coeficiente de correlação de Pearson. Isso é apropriado?

Minha segunda pergunta é que posso optar por experimentar as duas séries temporais da maneira que eu quiser. ou seja, eu posso escolher quantos pontos de dados eu vou. Isso afetará o coeficiente de correlação produzido? Preciso dar conta disso?

Para fins ilustrativos

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

— user1551817
fonte

Qual é a natureza das séries temporais? Eles são passeio aleatório? Estacionário? Séries econômicas?

— Aksakal

A correlação de Pearson é usada para examinar a correlação entre séries ... mas, sendo séries temporais, a correlação é vista em diferentes defasagens - a função de correlação cruzada .

A correlação cruzada é impactada pela dependência dentro da série, portanto, em muitos casos, a dependência dentro da série deve ser removida primeiro. Portanto, para usar essa correlação, em vez de suavizar a série, é realmente mais comum (porque é significativo) observar a dependência entre os resíduos - a parte áspera que resta depois que um modelo adequado é encontrado para as variáveis.

Você provavelmente deseja começar com alguns recursos básicos dos modelos de séries temporais antes de tentar descobrir se uma correlação de Pearson entre séries (presumivelmente) não estacionárias e suavizadas é interpretável.

Em particular, você provavelmente desejará examinar o fenômeno aqui . [Em séries temporais, isso às vezes é chamado de correlação espúria , embora o artigo da Wikipedia sobre correlação espúria tenha uma visão restrita do uso do termo de uma maneira que parece excluir esse uso do termo. Você provavelmente encontrará mais sobre os assuntos discutidos aqui, pesquisando uma regressão espúria .]

[Editar - o cenário da Wikipedia continua mudando; o parágrafo acima. provavelmente deve ser revisado para refletir o que existe agora.]

por exemplo, veja algumas discussões

http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (a citação de Yule, em um artigo apresentado em 1925, mas publicado no ano seguinte, resume muito bem o problema)
Christos Agiakloglou e Apostolos Tsimpanos, correlações espúrias para processos estacionários de AR (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (isso mostra que você pode até obter o problema entre séries estacionárias; daí a tendência de pré-branquear)
A referência clássica de Yule, (1926) [1] mencionada acima.

Você também pode achar a discussão aqui útil, bem como a discussão aqui

Usar a correlação de Pearson de maneira significativa entre séries temporais é difícil e às vezes surpreendentemente sutil.

Procurei correlação espúria, mas não me importo se minha série A é a causa da minha série B ou vice-versa. Eu só quero saber se você pode aprender algo sobre a série A, observando o que a série B está fazendo (ou vice-versa). Em outras palavras - eles têm uma correlação.

Tome nota do meu comentário anterior sobre o uso restrito do termo correlação espúria no artigo da Wikipedia.

O ponto sobre a correlação espúria é que as séries podem parecer correlacionadas, mas a correlação em si não é significativa. Considere duas pessoas jogando duas moedas distintas, contando o número de caras até agora menos o número de caudas até o valor de suas séries.

$\text{HTHH...}$ $1, 0, 1, 2,...$

Obviamente, não há conexão alguma entre as duas séries. Claramente, nenhum dos dois pode lhe dizer a primeira coisa sobre o outro!

Mas observe o tipo de correlação que você obtém entre pares de moedas:

insira a descrição da imagem aqui

Se eu não lhe dissesse o que eram, e você pegasse algum par dessas séries, essas seriam correlações impressionantes, não é?

Mas eles são todos sem sentido . Totalmente falso. Nenhum dos três pares está realmente mais positivo ou negativo que um dos outros - é apenas um ruído acumulado . A falsidade não se refere apenas à previsão, toda a noção de considerar a associação entre séries sem levar em conta a dependência dentro da série é equivocada.

Tudo o que você tem aqui é dependência dentro da série . Não existe uma relação real entre séries.

Depois que você lida adequadamente com o problema que torna essas séries auto-dependentes - elas são todas integradas ( passeios aleatórios de Bernoulli ), é necessário diferenciá-las - a associação "aparente" desaparece (a maior correlação absoluta entre séries das três é 0,048).

O que isso diz é a verdade - a aparente associação é uma mera ilusão causada pela dependência dentro da série.

Sua pergunta foi feita "como usar a correlação de Pearson corretamente com as séries temporais" - então, entenda: se há dependência dentro da série e você não lida com ela primeiro, não a usará corretamente.

Além disso, a suavização não reduzirá o problema da dependência serial; muito pelo contrário - torna ainda pior! Aqui estão as correlações após a suavização (loess suave padrão - de série versus índice - realizado em R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559

Todos se afastaram do 0. Ainda não são nada além de ruídos sem sentido , embora agora sejam ruídos suaves e cumulados. (Ao suavizar, reduzimos a variabilidade nas séries que colocamos no cálculo da correlação, e é por isso que a correlação aumenta.)

[1]: Yule, GU (1926) "Por que às vezes obtemos correlações sem sentido entre séries temporais?" J.Roy.Stat.Soc. , 89 , 1 , p. 1-63

— Glen_b
fonte

Obrigado pela ótima resposta. Procurei correlação espúria, mas não me importo se minha série A é a causa da minha série B ou vice-versa. Eu só quero saber se você pode aprender algo sobre a série A, observando o que a série B está fazendo (ou vice-versa). Em outras palavras - eles têm uma correlação.

— precisa saber é o seguinte

Por favor, veja minha resposta atualizada.

— Glen_b

".. então você precisa diferenciá-los .." o que significa exatamente? Talvez diferenciá-los? ..

— Georgios Pligoropoulos

Diferença - consulte a Wikipedia aqui ou esta seção do livro Previsão, Princípios e Prática . Na sua pergunta subsequente, o restante do parágrafo que você citar está dizendo explicitamente. (Não é a única possibilidade, no entanto, apenas descrevendo uma coisa razoavelmente comum que é feito)

— Glen_b

Eu ter localizado o que parece ser uma outra versão do papel, e acrescentou título e autores

— Glen_b

$(S_t)_{1 \leq t \leq T}$ $X_t = S_t - S_{t-1}$ ) que são (no caso de passeios aleatórios) independentes e distribuídos de forma idêntica. Sugiro que você use a correlação de Spearman ou a de Kendall, pois são mais robustas que o coeficiente de Pearson. Pearson mede a dependência linear, enquanto Spearman e Kendall são invariantes por transformações monótonas de suas variáveis.

Além disso, imagine que duas séries temporais são fortemente dependentes, digamos, sobem e descem juntas, mas uma sofre variações às vezes fortes e a outra sempre apresenta variações leves, sua correlação de Pearson será bastante baixa, diferente das de Spearman e Kendall (que são melhores estimativas de dependência entre suas séries temporais).

Para um tratamento completo sobre isso e uma melhor compreensão da dependência, você pode consultar a Teoria de Copula e uma aplicação para séries temporais .

— microfone
fonte

Os dados de séries temporais geralmente dependem do tempo. A correlação de Pearson, no entanto, é apropriada para dados independentes. Esse problema é semelhante à chamada regressão espúria. É provável que o coeficiente seja altamente significativo, mas isso vem apenas da tendência temporal dos dados que afetam as duas séries. Recomendo modelar os dados e, em seguida, tentar ver se a modelagem produz resultados semelhantes para as duas séries. O uso do coeficiente de correlação de Pearson, no entanto, provavelmente fornecerá resultados enganosos para a interpretação da estrutura de dependência.

— cara aleatório
fonte