Pergunta: Quero ter certeza de alguma coisa, o uso da validação cruzada k-fold com séries temporais é direto ou é necessário prestar atenção especial antes de usá-lo?
Antecedentes: estou modelando uma série temporal de 6 anos (com cadeia semi-markov), com uma amostra de dados a cada 5 minutos. Para comparar vários modelos, estou usando uma validação cruzada 6 vezes, separando os dados em 6 anos, para que meus conjuntos de treinamento (para calcular os parâmetros) tenham duração de 5 anos e os conjuntos de teste com 1 ano. Como não estou levando em consideração a ordem do tempo, meus conjuntos diferentes são:
- dobra 1: treinamento [1 2 3 4 5], teste [6]
- dobra 2: treinamento [1 2 3 4 6], teste [5]
- dobra 3: treinamento [1 2 3 5 6], teste [4]
- dobra 4: treinamento [1 2 4 5 6], teste [3]
- dobra 5: treinamento [1 3 4 5 6], teste [2]
- dobra 6: treinamento [2 3 4 5 6], teste [1].
Estou fazendo a hipótese de que a cada ano são independentes um do outro. Como posso verificar isso? Existe alguma referência que mostre a aplicabilidade da validação cruzada com dobras k com séries temporais.