Vários modelos ARIMA ajustam bem os dados. Como determinar a ordem? Abordagem correta?

Eu tenho duas séries temporais (parâmetros de um modelo para homens e mulheres) e pretendo identificar um modelo ARIMA apropriado para fazer previsões. Minha série cronológica se parece com:

insira a descrição da imagem aqui

A plotagem e o ACF mostram não estacionário (os picos do ACF cortam muito lentamente). Assim, uso diferenciação e obtenho:

insira a descrição da imagem aqui

Esse gráfico indica que a série pode agora ser estacionária e a aplicação do teste kpss e do teste adf suporta essa hipótese.

Começando com a série Male, fazemos as seguintes observações:

As autocorrelações empíricas em Lags 1,4,5,26 e 27 são significativamente diferentes de zero.
A ACF é cortada (?), Mas estou preocupado com os picos relativamente grandes nos lag 26 e 27.
Somente as autocorrelações parciais empíricas nos Lags 1 e 2 são significativamente diferentes de zero.

Apenas com base nessas observações, se eu tivesse que escolher um modelo puro de AR ou MA para as séries temporais diferenciadas, tenderia a escolher um modelo de AR (2) argumentando que:

Não temos autocorrelações parciais significativas para lag superior a 2
O ACF é interrompido, exceto na região em torno do atraso 27. (Esses poucos valores extremos são apenas um indicador de que um modelo ARMA misto seria apropriado?)

ou um modelo MA (1) argumentando que:

O PACF corta claramente
Temos para lags maiores 1 apenas 4 picos que excedem o valor crítico em magnitude. Este é "apenas" um a mais do que os três picos (95% de 60) que poderiam ficar fora da área pontilhada.

Não há características de um modelo ARIMA (1,1,1) e a escolha das ordens de peq de um modelo ARIMA com base no ACF e PACF para p + q> 2 fica difícil.

O uso de auto.arima () com o critério AIC (Devo usar AIC ou AICC?) Fornece:

ARIMA (2,1,1) com Drift; AIC = 280.2783
ARIMA (0,1,1) com tração; AIC = 280.2784
ARIMA (2,1,0) com Drift; AIC = 281.437

Todos os três modelos considerados mostram resíduos de ruído branco:

insira a descrição da imagem aqui

Minhas perguntas resumidas são:

Você ainda pode descrever o ACF da série cronológica como um corte, apesar dos picos em torno do atraso 26?
Esses valores discrepantes são um indicador de que um modelo ARMA misto pode ser mais apropriado?
Qual critério de informação devo escolher? AIC? AICC?
Os resíduos dos três modelos com o AIC mais alto mostram comportamento de ruído branco, mas a diferença no AIC é apenas muito pequena. Devo usar aquele com o menor número de parâmetros, ou seja, um ARIMA (0,1,1)?
Minha argumentação em geral é plausível?
Existem outras possibilidades para determinar qual modelo pode ser melhor ou devo, por exemplo, os dois com a AIC mais alta e realizar backtests para testar a plausibilidade das previsões?

EDIT: Aqui estão os meus dados:

-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370  0.5826312749  0.3869227286  0.6268379174  0.7439125292 0.7641139207  0.7613140511  3.0143912244 -0.7339255839  2.0109976796 0.8282394650 -2.5668367983  5.9826406394  1.9569198553  2.3860893476 2.0883339390  1.9761894580  2.2601997245  2.2464027995  2.5131158613 3.4564765529  4.2307335557  4.0298688374  3.7626317439  3.1026407174 2.1690168737  1.5617407254  2.6790460788  0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523  0.5152074134  0.2362626753 -2.9978337017  1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990

— Stats_L
fonte

1) Você ainda pode descrever o ACF da série temporal como um corte, apesar dos picos em torno do atraso 26?

26 e 27 sugerem que os dados são semanais, algum tipo de ciclo anual da ordem 26 ou 52

Esses valores discrepantes são um indicador de que um modelo ARMA misto pode ser mais apropriado?

Se houver outliers na série observada, o modelo ARIMA se tornará um Transfer Function Model com entradas falsas.

Os valores discrepantes no acf / pacf geralmente não são interpretáveis. Rathe usa o acf / paf de um modelo experimental sugerido pelo dominante acf / pacf abd e ITERATE para um modelo mais complexo.

Qual critério de informação devo escolher? AIC? AICC? Os resíduos dos três modelos com o AIC mais alto mostram comportamento de ruído branco, mas a diferença no AIC é apenas muito pequena. Devo usar aquele com o menor número de parâmetros, ou seja, um ARIMA (0,1,1)?

Nenhuma, pois é baseada em um conjunto de testes de modelos assumidos.

Minha argumentação em geral é plausível? Pergunta vaga ... resposta ainda mais vaga.

Existem outras possibilidades para determinar qual modelo pode ser melhor ou devo, por exemplo, os dois com a AIC mais alta e realizar backtests para testar a plausibilidade das previsões?

Simplesmente ITERE (devagar!) Para modelos mais / menos complicados que incorporam tanto a estrutura autorregressiva quanto a determinística. Consulte http://www.autobox.com/cms/index.php/blog/entry/build-or-make-your-own-arima-forecasting-mode para obter um diagrama de fluxo lógico

EDITAR APÓS O RECIBO DOS DADOS:

Fui enganado pelo seu comentário, você usou a palavra lag de 26 e entendi incorretamente que estava falando sobre o acf, mas estava falando sobre o ponto de tempo 26. Um conjunto de dados pode não ser estacionário de várias maneiras. Se a média muda, o remédio para essa não estacionariedade é sem sentido. No seu caso, a não estacionariedade é causada por duas tendências distintas e distintas e um aumento significativo na variação do erro. Ambas as descobertas são facilmente suportadas pelo olho. insira a descrição da imagem aqui

Seus dados têm não estacionariedade, mas o remédio para a não estacionariedade dos dados na média não é diferente, mas diminui conforme duas tendências são encontradas (1-29 e 30-65) encontradas por meio da detecção de intervenção. Além disso, sua variação de erro não está estacionária aumentando significativamente no período 28 encontrado através do teste de Tsay para variação de erro não constante. Consulte esta referência para os dois procedimentos http://www.unc.edu/~jbhill/tsay.pdf . Após o ajuste para as duas tendências e variação da variação de erro e alguns pulsos, um modelo simples de AR (1) foi considerado adequado. Aqui está o gráfico de Real / Ajuste / Previsão. A equação insira a descrição da imagem aqui está aqui com os resultados da estimativa aqui . O teste de mudança de variância está aqui e o gráfico dos resíduos do modelo está aqui. Usei o AUTOBOX, um software que ajudei a desenvolver para separar automaticamente o sinal do ruído. Seu conjunto de dados é o "garoto propaganda", pelo qual a modelagem simples do ARIMA não é amplamente usada porque métodos simples não funcionam em problemas complexos. Observe bem que a mudança na variação de erro não é vinculável ao nível da série de observações, portanto, transformações de potência, como logs, não são relevantes, embora os trabalhos publicados apresentem modelos usando essa estrutura. Consulte Transformação de log ou raiz quadrada do ARIMA para obter uma discussão sobre quando realizar transformações de energia.

insira a descrição da imagem aqui

— IrishStat
fonte

Muito obrigado pelos comentários úteis. Infelizmente, as séries temporais representam parâmetros estimados de um modelo (de mortalidade) por vários anos. Portanto, não acho que a inclusão de componentes sazonais possa resolver esse problema. Em relação ao seu ponto de começar a partir de um modelo experimental simples e, em seguida, iterá-lo para um modelo mais complexo: Observando o ACF e o PACF dos Residuais do ARIMA (0,1,1), eles mostram o comportamento WN. Que tipo de padrão sinto falta que destacaria a necessidade de um modelo mais complexo? Btw, acabei de adicionar meus dados.

— Stats_L

Muito obrigado pelo seu esforço e comentários. Curiosamente, os parâmetros representam um efeito de coorte de modelos de mortalidade, que geralmente são modelados como um modelo simples de ARIMA (p, d, q) na literatura, veja, por exemplo, pensions-institute.org/workingpapers/wp0801.pdf

— Stats_L

A palavra-chave aqui é "simples". Atuários, apesar de matemáticos talentosos, não são necessariamente o estado da arte na análise de séries temporais. Uma boa análise apresenta testes de significância e suficiência, mostrando testes de premissas. Você pode passar esses resultados aos autores e obter feedback ou, pelo menos, crédito por expandir sua consciência.

— IrishStat

Isso explicaria por que a escolha de um determinado modelo ARIMA (p, d, q) geralmente é baseada apenas nos valores da AIC (ou pelo menos exames adicionais não são mencionados e descritos em detalhes). Se você encontrar tempo nos próximos dias, eu ficaria muito interessado em sua opinião sobre a minha segunda série temporal. Preciso prever e se uma caminhada aleatória com desvio pode ser apropriada. Pode ser encontrado aqui: stats.stackexchange.com/questions/161571/…

— Stats_L