Estou interessado na seleção de modelos em uma configuração de série temporal. Por concretude, suponha que eu queira selecionar um modelo ARMA de um conjunto de modelos ARMA com diferentes ordens de atraso. A intenção final é a previsão .
A seleção do modelo pode ser feita por
- validação cruzada,
- uso de critérios de informação (AIC, BIC),
entre outros métodos.
Rob J. Hyndman fornece uma maneira de fazer a validação cruzada para séries temporais . Para amostras relativamente pequenas, o tamanho da amostra usado na validação cruzada pode ser qualitativamente diferente do tamanho da amostra original. Por exemplo, se o tamanho original da amostra for 200 observações, pode-se pensar em iniciar a validação cruzada, fazendo as primeiras 101 observações e expandindo a janela para 102, 103, ..., 200 observações para obter 100 resultados de validação cruzada. Claramente, um modelo razoavelmente parcimonioso para 200 observações pode ser muito grande para 100 observações e, portanto, seu erro de validação será grande. Assim, a validação cruzada provavelmente favorecerá sistematicamente modelos muito parcimoniosos. Este é um efeito indesejável devido à incompatibilidade nos tamanhos das amostras .
Uma alternativa à validação cruzada é usar critérios de informação para seleção de modelo. Como me preocupo com a previsão, usaria o AIC. Embora o AIC seja assintoticamente equivalente a minimizar o MSE de uma etapa fora da amostra para modelos de séries temporais (de acordo com este post de Rob J. Hyndman), duvido que isso seja relevante aqui, pois a amostra tamanhos que me interessam não são tão grandes ...
Pergunta: devo escolher o AIC ao longo da validação cruzada de séries temporais para amostras pequenas / médias?
Algumas perguntas relacionadas podem ser encontradas aqui , aqui e aqui .