Recentemente, encontrei várias fontes "informais" que indicam que, em algumas circunstâncias, se usarmos o AIC ou o BIC para treinar um modelo de série temporal, não precisaremos dividir os dados em teste e treinamento - podemos usar todos os dados para treinamento. (As fontes incluem, entre outras, uma discussão no post de Rob Hyndman no CV , esta apresentação de Stanford ou a Seção 4 deste texto ).
Em particular, eles parecem indicar que o AIC ou o BIC podem ser usados quando o conjunto de dados é muito pequeno para permitir uma divisão de trem / teste.
O comentário de Rob Hyndman, por exemplo: "É muito mais eficiente usar o AIC / BIC do que usar conjuntos de testes ou CV, e isso se torna essencial para séries temporais curtas, onde não há dados suficientes para fazer o contrário".
Não consigo, no entanto, encontrar textos ou documentos que discutam isso em detalhes.
Uma coisa que me intriga especialmente é que o AIC e o BIC tendem assintoticamente à validação cruzada, o que significa que, se possível, eles substituiriam o CV por grandes conjuntos de dados - o que contraria a ideia de serem úteis para pequenos conjuntos de dados.
Alguém pode me indicar uma discussão formal (capítulos de livros, artigos, tutoriais) dessa idéia?