Como incorporar um outlier inovador na observação 48 no meu modelo ARIMA?

Estou trabalhando em um conjunto de dados. Depois de usar algumas técnicas de identificação de modelos, criei um modelo ARIMA (0,2,1).

Usei a detectIOfunção no pacote TSAem R para detectar um outlier inovador (IO) na 48ª observação do meu conjunto de dados original.

Como faço para incorporar esse erro externo ao meu modelo para que eu possa usá-lo para fins de previsão? Não quero usar o modelo ARIMAX, pois talvez não seja possível fazer previsões em R. Existem outras maneiras de fazer isso?

Aqui estão meus valores em ordem:

VALUE <- scan()
  4.6  4.5  4.4  4.5  4.4  4.6  4.7  4.6  4.7  4.7  4.7  5.0  5.0  4.9  5.1  5.0  5.4
  5.6  5.8  6.1  6.1  6.5  6.8  7.3  7.8  8.3  8.7  9.0  9.4  9.5  9.5  9.6  9.8 10.0
  9.9  9.9  9.8  9.8  9.9  9.9  9.6  9.4  9.5  9.5  9.5  9.5  9.8  9.3  9.1  9.0  8.9
  9.0  9.0  9.1  9.0  9.0  9.0  8.9  8.6  8.5  8.3  8.3  8.2  8.1  8.2  8.2  8.2  8.1
  7.8  7.9  7.8  7.8

Na verdade, esses são meus dados. São taxas de desemprego por um período de 6 anos. Existem 72 observações então. Cada valor tem no máximo uma casa decimal

r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

— b2amen
fonte

Você pode criar um manequim de 1 para e 0 em todos os outros períodos. Em seguida, reestime o modelo. Isso evitará que isso ocorra distorcendo a previsão. Se não é isso que você tem em mente, você deve elaborar o segundo parágrafo.

t = 48

$t=48$

— precisa saber é o seguinte

@ Gen_b Você está correto, isso deve incomodá-lo, pois isso provavelmente é diferenciado, resultando em um cancelamento MA (1). A identificação incorreta resulta do uso de ferramentas inadequadas.

— IrishStat

Nas segundas diferenças, você tem o que parece um outlier, mas aparentemente é causado por um pequeno salto aditivo na observação 47 da série original, que quando diferenciado duas vezes parece um grande outlier negativo um período depois. Se você fizer algo simples para remover esse pequeno efeito na observação 47 (quase tudo sensato), não haverá discrepâncias na segunda diferença. Eu diria que talvez seja melhor visto como um AO na escala original.

— Glen_b -Reinstar Monica

Há muita coisa acontecendo nesse conjunto de dados, mas o comportamento temporal local (correlação, sazonalidade etc.) é o menor. Quando você analisa cegamente dados como esse como apenas uma sequência de números, corre o risco de produzir resultados ridículos (ou pior). O que você pode nos dizer sobre o que esses dados significam ? Talvez sejam medidas de algo em uma estação de monitoramento? Uma série temporal econômica? Um gráfico de crescimento biológico? Entender algo sobre o fenômeno subjacente geralmente fará muito mais para ajudar a identificar um modelo do que qualquer quantidade de mexer com o software estatístico.

— whuber

@ whuber: são taxas de desemprego por um período de 6 anos!

— b2amen

Se , . $Y(t) = [\theta/\phi][A(t)+\text{IO}(t)]$ $Y^\text{*}(t) = [\theta/\phi][A(t)] + [\theta/\phi][\text{IO}(t)]$

Se e por exemplo ... então $\theta = 1$ $\phi = [1-.5B]$
$Y^\text{*}(t) = [1/(1-.5B)][A(t)]$
$\quad\quad\quad\quad+ \text{IO}(t) - .5\cdot \text{IO}(t-1) + .25\cdot \text{IO}(t-2) - .125\cdot \text{IO}(t-3)-\ldots\,.$

Se, por exemplo, a estimativa do efeito IO for 10,0, onde a variável do indicador para é 0 ou 1.
$Y^{*}(t) = [1/(1-.5B)][A(t)]$ $\quad\quad\quad\quad+ 10\cdot \text{IO}(t) - 5\cdot \text{IO}(t-1) + 2.5\cdot \text{IO}(t-2) - 1.25\cdot \text{IO}(t-3)-\ldots\,.$
$\text{IO}$

Dessa maneira, você pode ver que o impacto da anomalia não é instantâneo, mas possui memória.

Um software como o AUTOBOX (com o qual estou familiarizado) não identifica efeitos de IO (mas sim efeitos AO) identificaria uma sequência de anomalias com os valores 10, -5, 2,5, -1,25, ... começando no período . $t$

O usuário, ao ver esse evento raro, pode restabelecer a transferência entre a intervenção AO com uma estrutura dinâmica vez de uma estrutura numeradora pura produz o mesmo resultado como se uma IO efeito foi incorporado. $[w(b)/d(b)]$ $[w(b)]$

Sempre que você incorpora memória, seja resultado de um operador diferenciado ou de uma estrutura ARMA, é uma admissão tácita de ignorância devido a séries causais omitidas. Isso também se aplica à necessidade de incorporar séries determinísticas de intervenção, como pulsos / turnos de nível, pulsos sazonais ou tendências de hora local. Essas variáveis fictícias são um proxy necessário para variáveis causais determinadas pelo usuário, determinísticas omitidas. Muitas vezes, tudo o que você tem é a série de interesses e, considerando os qualificadores que eu expliquei, é possível prever o futuro com base no passado, em total ignorância da natureza exata dos dados que estão sendo analisados. O único problema é que você está usando a janela traseira para prever o caminho a seguir ... uma coisa perigosa, de fato.

depois que os dados foram postados ...

Um modelo razoável é um (1,1,0) insira a descrição da imagem aqui e as anomalias de AO foram identificadas nos períodos 39,41,47,21 e 69 (não no período 48). Os resíduos desse modelo parecem estar livres de estrutura evidente. E O índice AO valoriza uma representação ótima da atividade refletida pela atividade que não está no histórico da série temporal. Eu pensaria que o ACF do modelo super diferenciado do OP refletiria inadequação do modelo. Aqui está o modelo. Novamente, não há código R entregue, pois o problema ou a oportunidade está no campo da identificação / revisão / validação do modelo. Finalmente, um gráfico das séries atual / ajustada e prevista.! [Insira a descrição da imagem aqui] [6]

— IrishStat
fonte

Obrigado pela sua resposta; mas na verdade eu queria um código R para o meu modelo.

— b2amen

@ b2amen Sim, eu compreendi MAS Glen_b queria algumas "coisas" e pensei em responder a ele.

— IrishStat

Obrigado pela edição. Você e eu faríamos bons parceiros!

— IrishStat

@ IrishStat: meus dados estão incluídos na pergunta original. Espero que possa ajudá-lo a me ajudar. De qualquer forma, obrigado #

— 22213 b2amen

@IrishStat: eu gosto da sua saída. Parece muito legal para mim. E qual software você usou? Mas você poderia explicar como identificou um AR (2,1,0)? Graças

— b2amen