Como comparar duas séries temporais não estacionárias para determinar uma correlação?


10

Eu tenho duas séries de dados que traçam a idade média na morte ao longo do tempo. Ambas as séries demonstram um aumento da idade da morte ao longo do tempo, mas uma muito menor que a outra. Quero determinar se o aumento na idade de morte da amostra inferior é significativamente diferente do da amostra superior.

Aqui estão os dados , ordenados por ano (inclusive de 1972 a 2009), arredondados para três casas decimais:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Ambas as séries não são estacionárias - como posso comparar as duas, por favor? Estou usando STATA. Qualquer conselho seria gratamente recebido.

Gráficos de dados


Se você fornecer um link para seus dados, Matt, podemos editar sua pergunta para incluir esses dados.
whuber

Muito obrigado pelo seu interesse na minha situação - link para os dados adicionados. Qualquer ajuda seria appreciated.Matt
Matt Hurley

@ Matt: Olhando para seus dados, parece que ambas são tendências ascendentes. Então, você está essencialmente interessado na hipótese de que uma coorte está aumentando mais rapidamente que a outra?
18711 Andrew Andrew

Sim Andrew - a coorte superior é a população em geral, enquanto a coorte com a idade mais baixa da morte é um grupo que morre da mesma condição. A hipótese nula é que, se eles estão intimamente correlacionados, qualquer melhora na sobrevida é potencialmente devida a fatores comuns (e não ao aprimoramento do tratamento dessa condição).
Matt Hurley

Os aumentos, por mais medidos que sejam, são tão obviamente diferentes que nenhum teste formal é necessário. (Você obterá valores p de ou menos, quase não importa como você avalie e compare as inclinações, não importa como modele a variação.) A diferença nas expectativas de vida diminuiu exponencialmente a uma taxa de 0,83% por ano. O interessante é o repentino revés na Coorte B em 2001; essa mudança - equivalente a uma perda instantânea de seis anos de progresso - é estatisticamente significativa. 1010
whuber

Respostas:


13

Esta é uma situação simples; vamos continuar assim. A chave é se concentrar no que importa:

  • Obtendo uma descrição útil dos dados.

  • Avaliando desvios individuais dessa descrição.

  • Avaliando o possível papel e influência do acaso na interpretação.

  • Manutenção da integridade e transparência intelectual.

Ainda existem muitas opções e muitas formas de análise serão válidas e eficazes. Vamos ilustrar uma abordagem aqui que pode ser recomendada por sua aderência a esses princípios fundamentais.

Para manter a integridade, vamos dividir os dados em duas partes: as observações de 1972 a 1990 e as de 1991 a 2009 (19 anos em cada). Ajustaremos os modelos ao primeiro semestre e, em seguida, veremos como os ajustes funcionam na projeção do segundo semestre. Isso tem a vantagem adicional de detectar alterações significativas que podem ter ocorrido durante o segundo semestre.

Para obter uma descrição útil, precisamos (a) encontrar uma maneira de medir as mudanças e (b) ajustar o modelo mais simples possível apropriado para essas mudanças, avaliá-lo e ajustar iterativamente os mais complexos para acomodar desvios dos modelos simples.

(a) Você tem muitas opções: pode ver os dados brutos; você pode ver as diferenças anuais deles; você pode fazer o mesmo com os logaritmos (para avaliar alterações relativas); você pode avaliar anos de vida perdidos ou expectativa de vida relativa (RLE); ou muitas outras coisas. Após algumas considerações, decidi considerar o RLE, definido como a razão da expectativa de vida na Coorte B em relação à coorte A. (de referência). Felizmente, como mostram os gráficos, a expectativa de vida na Coorte A está aumentando regularmente em um estado estável. moda ao longo do tempo, de modo que a maior parte da variação aleatória no RLE se deva a alterações na Coorte B.

(b) O modelo mais simples possível para começar é uma tendência linear. Vamos ver como isso funciona.

figura 1

Os pontos azuis escuros neste gráfico são os dados retidos para ajuste; os pontos dourados claros são os dados subsequentes, não utilizados para o ajuste. A linha preta é a mais adequada, com uma inclinação de 0,009 / ano. As linhas tracejadas são intervalos de previsão para valores futuros individuais.

No geral, o ajuste parece bom: o exame de resíduos (veja abaixo) não mostra mudanças importantes em seus tamanhos ao longo do tempo (durante o período de dados de 1972-1990). (Há alguma indicação de que eles tendiam a ser maiores no início, quando as expectativas de vida eram baixas. Poderíamos lidar com essa complicação sacrificando alguma simplicidade, mas é improvável que os benefícios para estimar a tendência sejam ótimos.) Há apenas a menor sugestão de correlação serial (exibida por algumas séries de resíduos positivos e séries de resíduos negativos), mas claramente isso não é importante. Não há discrepantes, o que seria indicado por pontos além das faixas de previsão.

A única surpresa é que, em 2001, os valores caíram repentinamente na faixa de previsão mais baixa e permaneceram lá: algo repentino e grande aconteceu e persistiu.

Aqui estão os resíduos, que são os desvios da descrição mencionada anteriormente.

Figura 2

Como queremos comparar os resíduos com 0, as linhas verticais são desenhadas no nível zero como um auxílio visual. Novamente, os pontos azuis mostram os dados usados ​​para o ajuste. Os de ouro claro são os resíduos dos dados que caem perto do limite de previsão mais baixo, após 2000.

A partir desta figura, podemos estimar que o efeito da mudança 2000-2001 foi de cerca de -0,07 . Isso reflete uma queda repentina de 0,07 (7%) de uma vida útil completa na Coorte B. Após essa queda, o padrão horizontal de resíduos mostra que a tendência anterior continuou, mas no novo nível mais baixo. Essa parte da análise deve ser considerada exploratória : não foi planejada especificamente, mas ocorreu devido a uma comparação surpreendente entre os dados retidos (1991-2009) e a adequação ao restante dos dados.

Outra coisa - mesmo usando apenas os 19 anos iniciais de dados, o erro padrão da inclinação é pequeno: é apenas 0,0009, apenas um décimo do valor estimado de 0,009. A estatística t correspondente de 10, com 17 graus de liberdade, é extremamente significativa (o valor de p é menor que ); isto é, podemos ter certeza de que a tendência não se deve ao acaso. Essa é uma parte de nossa avaliação do papel do acaso na análise. As outras partes são os exames dos resíduos.107

Parece não haver razão para ajustar um modelo mais complicado a esses dados, pelo menos não com o objetivo de estimar se há uma tendência genuína no RLE ao longo do tempo: existe um. Poderíamos ir além e dividir os dados em valores anteriores a 2001 e posteriores a 2000, a fim de refinar nossas estimativasdas tendências, mas não seria completamente honesto conduzir testes de hipóteses. Os valores de p seriam artificialmente baixos, porque os testes de divisão não foram planejados com antecedência. Mas como um exercício exploratório, essa estimativa é boa. Aprenda tudo o que puder com seus dados! Apenas tome cuidado para não se enganar com o ajuste excessivo (o que é quase certo de acontecer se você usar mais de meia dúzia de parâmetros ou usar técnicas automatizadas de ajuste) ou bisbilhotagem de dados: fique atento à diferença entre confirmação formal e informal (mas valiosa) exploração de dados.

Vamos resumir:

  • Selecionando uma medida apropriada da expectativa de vida (RLE), mantendo metade dos dados, ajustando um modelo simples e testando esse modelo com relação aos dados restantes, estabelecemos com alta confiança que : houve uma tendência consistente; esteve próximo de linear durante um longo período de tempo; e houve uma queda súbita e persistente no RLE em 2001.

  • Nosso modelo é surpreendentemente parcimonioso : requer apenas dois números (uma inclinação e uma interceptação) para descrever os dados antigos com precisão. Precisa de um terço (a data do intervalo, 2001) para descrever uma saída óbvia, mas inesperada, dessa descrição. Não há discrepantes em relação a esta descrição de três parâmetros. O modelo não será substancialmente aprimorado, caracterizando a correlação serial (o foco das técnicas de séries temporais em geral), tentando descrever os pequenos desvios individuais (resíduos) exibidos ou introduzindo ajustes mais complicados (como adicionar um componente de tempo quadrático) ou modelar alterações nos tamanhos dos resíduos ao longo do tempo).

  • A tendência foi de 0,009 RLE por ano . Isso significa que a cada ano que passa, a expectativa de vida na Coorte B recebe 0,009 (quase 1%) de uma vida útil normal esperada completa. Ao longo do estudo (37 anos), isso equivaleria a 37 * 0,009 = 0,34 = um terço de uma melhoria completa da vida. O revés em 2001 reduziu esse ganho para cerca de 0,28 de uma vida útil completa, de 1972 a 2009 (embora, durante esse período, a expectativa de vida total tenha aumentado 10%).

  • Embora esse modelo possa ser melhorado, provavelmente precisará de mais parâmetros e é improvável que a melhoria seja ótima (como atesta o comportamento quase aleatório dos resíduos). No geral, devemos nos contentar em chegar a uma descrição tão compacta, útil e simples dos dados para tão pouco trabalho analítico.


: whuber os pulsos identificados uma vez não desempenham nenhum papel na previsão:
IrishStat

2

Eu acho que a resposta do whuber é direta e simples para uma pessoa que não seja da série temporal como eu entender. Eu baseio o meu no dele. Minha resposta está em R e não em Stata, pois não os conheço tão bem.

Eu me pergunto se a pergunta está realmente nos pedindo para examinar se o aumento absoluto de um ano para outro é o mesmo nas duas coortes (em vez de relativas). Eu acho que isso é importante e ilustro da seguinte forma. Considere o seguinte exemplo de brinquedo:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

insira a descrição da imagem aqui

Aqui temos duas coortes, cada uma com um aumento constante de 1 ano por ano na sobrevida média. Portanto, a cada ano, as duas coortes neste exemplo aumentam na mesma quantidade absoluta, mas o RLE fornece o seguinte:

rle <-  a / b
plot(rle)

insira a descrição da imagem aqui

O que obviamente tem uma tendência ascendente, e o valor p para testar a hipótese de que o gradiente da linha 0 é 2,2e-16. A linha reta ajustada (vamos ignorar que essa linha parece curva) tem um gradiente de 0,008. Portanto, embora ambas as coortes tenham o mesmo aumento absoluto em um ano, o RLE tem uma inclinação ascendente.

Portanto, se você usar o RLE quando desejar procurar aumentos absolutos, rejeitará inadequadamente a hipótese nula.

Usando os dados fornecidos, calculando a diferença absoluta entre as coortes que obtemos: insira a descrição da imagem aqui

O que implica que a diferença absoluta entre a sobrevida média está diminuindo gradualmente (ou seja, a coorte com baixa sobrevida está gradualmente se aproximando da coorte com a melhor sobrevida).


: Andrew observe os dois aglomerados de resíduos no final do seu gráfico. Isso sugere uma potencial deficiência em sua análise. Infelizmente, mesmo os matemáticos habilidosos que também são estatísticos habilidosos às vezes não são pessoas de séries temporais. O que sugeri é o procedimento operacional padrão para análise de séries temporais.
IrishStat

@ andrew Resposta agradável. Eu votei, acredito em suas qualificações!
Adam

11
: Adam Obrigado por suas boas palavras. Você notará que eu só opino sobre problemas / perguntas de séries temporais em que tenho alguma experiência, pois me especializei nessa área nos últimos 40 anos.
IrishStat

@IrishStat um toque discursivo. Boa experiência, você está colocando punks como eu no lugar desde antes de eu nascer.
Adam

: Adam A idéia toda é ajudar outras pessoas. Eu realmente espero que tenha sido esse o caso. Estou confuso com a palavra "punks", pois não tenho esse sentimento. Apenas tentando ajudar !
IrishStat

1

Essas duas séries temporais parecem ter uma tendência determinística. Essa é uma relação que você obviamente deseja remover antes de uma análise mais aprofundada. Pessoalmente, eu procederia da seguinte forma:

1) Eu executaria uma regressão para cada série temporal contra uma constante e uma hora, e calcularia o residual para cada série temporal.

2) Tomando as duas séries de resíduos calculadas na etapa acima, eu executaria uma regressão linear simples (sem um termo constante) e examinaria a estatística t, valor p, e decidira se existe ou não mais dependência entre as duas séries.

Essa análise assume o mesmo conjunto de suposições que você faz em uma regressão linear.


: user3544 A execução de uma regressão contra uma constante no tempo é uma forma de degradação, que é uma forma de pré-clareamento; a diferenciação é outra forma de pré-clareamento: ambas são presuntivas, pois podem haver várias tendências ou formas diferentes de operadores diferenciadores. Observe que um operador diferenciado é um caso específico de um filtro ARIMA que converte uma série em ruído branco. Em geral, deseja-se filtrar X para torná-lo ruído (x) e, em seguida, aplicar esse filtro a Y para criar y (não necessariamente ruído branco) para fins de identificação da estrutura ou transferência entre Y e X.
IrishStat

: User3544 Eu deveria ter aplaudido o seu uso de tendências únicas simples e sem complicações, mas acho que às vezes não se deve assumir. Uma tendência simples geralmente é inútil se houver mudanças de nível na série ou se houver várias tendências. A hipótese de teste referente à constância dos parâmetros precisa ser robusta e conduzida onde se busca o ponto no tempo em que os parâmetros podem ter sido alterados, em vez de selecionar arbitrariamente visualmente o ponto usando o Teste de Chow. É sabido que os valores incomuns de viés descendente testam a correlação automática, razão pela qual é necessário detectá-los.
IrishStat

IrishStat: seu aplauso é bem recebido e ouvido .. :) Concordo totalmente com os seus comentários, no entanto, dadas as tramas das duas séries temporais, pensei "Vamos simplificar" .. :)
Lalas

11
: user3544 Minha citação favorita de Einstein é "Torne tudo o mais simples possível, mas não mais simples" ou reformulado Torne os modelos o mais simples possível, mas não mais simples, porque algumas pessoas pensam que simples é o objetivo, embora possa ser a causa de análises insuficientes. Nesse caso, sua sugestão seria suficiente para identificar a correlação contemporânea e a correlação de atraso entre as duas coortes, enquanto iluminava a mudança de nível. Leia mais: brainyquote.com/quotes/quotes/a/… .
IrishStat

0

Em alguns casos, conhece-se um modelo teórico que pode ser usado para testar sua hipótese. No meu mundo, esse "conhecimento" geralmente está ausente e é preciso recorrer a técnicas estatísticas que podem ser classificadas como análise exploratória de dados, que resume o que se segue. muitas vezes enganosas, na medida em que os falsos positivos podem ser facilmente encontrados. Uma das primeiras análises disso é encontrada em Yule, GU, 1926, "Por que às vezes obtemos correlações sem sentido entre séries temporais? Um estudo sobre amostragem e a natureza das séries temporais", Journal of the Royal Statistical Society 89, 1– 64 Como alternativa, quando uma ou mais séries foram afetadas por atividades excepcionais (consulte whuber " súbito revés na Coorte B em 2001) que pode efetivamente esconder relacionamentos significativos. Agora, a detecção de um relacionamento entre séries temporais se estende a examinar não apenas os relacionamentos contemporâneos, mas também possíveis relacionamentos atrasados. Continuando, se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Agora, a detecção de um relacionamento entre séries temporais se estende a examinar não apenas os relacionamentos contemporâneos, mas também possíveis relacionamentos atrasados. Continuando, se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Agora, a detecção de um relacionamento entre séries temporais se estende a examinar não apenas os relacionamentos contemporâneos, mas também possíveis relacionamentos atrasados. Continuando, se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": se qualquer uma das séries tiver sido efetuada por anomalias (eventos únicos), então devemos fortalecer nossa análise ajustando essas distorções únicas. A literatura de séries temporais mostra como identificar o relacionamento via pré-clareamento, a fim de identificar com mais clareza a estrutura. O pré-clareamento ajusta a estrutura intra-correlativa antes de identificar a estrutura inter-correlativa. Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil": Observe que a palavra-chave estava identificando a estrutura. Essa abordagem leva facilmente ao seguinte "modelo útil":

Y (T) = -194,45
+ [X1 (T)] [(+ 1,2296+ 1,6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

o que sugere uma relação contemporânea de 1,2936 e um efeito defasado de 1,6523. Observe que houve vários anos em que atividades incomuns foram identificadas viz. (1975,2001,1983,1999,1976,1985,1984,1991 e 1989). Os ajustes para os anos nos permitem avaliar mais claramente a relação entre essas duas séries.

Em termos de fazer uma previsão

MODELO EXPRESSO COMO UM XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ constante

O CONSTANTE DO LADO DIREITO É: -194,45

COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340

COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835

I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Quatro coeficientes são tudo o que é necessário para fazer uma previsão e, é claro, uma previsão para a Coorte A no período 39 (78.228616) obtido do modelo ARIMA para Cohorta.


4
Nove em 38 anos exibem atividades "incomuns"? Em um modelo com (aparentemente) 25 parâmetros ?! Algo está errado com essa interpretação. Além de todos esses pulsos e a mudança de nível, você já encontrou o componente não linear na tendência da coorte b?
whuber

2
Quais são os números na coluna da direita (3, 30, 29, 11, etc.)? Eles parecem fazer parte da sua descrição dos dados e, portanto, também são parâmetros. Mesmo se não contá-los, o uso de 14 parâmetros para descrever 38 valores, especialmente quando a pergunta é simplesmente "existe uma tendência?", Parece excessivo. Na verdade, qual é exatamente a tendência? Onde em todas essas estimativas se desenterra? Se um médico o abordasse e perguntasse: "ok, o que foi feito para os pacientes da Coorte B desde 1972", você poderia dizer a eles em uma frase clara?
whuber

2
Re "previsão muito poderosa": Eu posso estar entendendo mal o que o seu modelo significa, mas, em geral, melhores descrições de um método (séries temporais ou outras) que identifica um quarto dos dados de uma pessoa como "incomum" e exigir "ajuste" "equipado demais" e "desnecessariamente complexo". Sua afirmação de que não há tendência na Coorte B é simplesmente incrível.
whuber

2
@ Adam, porque essa análise ignora essencialmente as informações sobre a variabilidade contidas nos 10 "pulsos", quaisquer faixas de previsão que ele coloca em torno das previsões serão altamente otimistas demais (muito apertadas). Além disso, uma análise mais profunda que inclua todos os dados (diferentemente da minha análise ilustrativa que inclui apenas a primeira metade) detectará um componente não linear consistente com um ligeiro declínio na tendência, e isso também não é detectado aqui. De maior importância do que a previsão é entender o efeito 2000-2001: se puder ser repetido, todas as previsões provavelmente estão erradas.
whuber

11
@whuber Eu reconhecidamente não conheço todo o jargão técnico, mas sua explicação faz muito sentido. Muito obrigado.
Adam

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.