Tenho dados históricos de vendas de uma padaria (diariamente, mais de 3 anos). Agora, quero criar um modelo para prever vendas futuras (usando recursos como dia da semana, variáveis climáticas, etc.).
Como devo dividir o conjunto de dados para ajustar e avaliar os modelos?
- Precisa ser uma divisão cronológica de trem / validação / teste?
- Eu faria o ajuste do hiperparâmetro com o conjunto de trem e validação?
- A validação cruzada (aninhada) é uma estratégia ruim para um problema de série temporal?
EDIT
Aqui estão alguns links que encontrei após seguir o URL sugerido por @ ene100:
- Rob Hyndman descrevendo "origem da previsão progressiva" na teoria e na prática (com código R)
- outros termos para a origem da previsão rotativa são "otimização para a frente" ( aqui ou aqui ), "horizonte rotativo" ou "origem móvel"
- parece que essas técnicas não serão integradas ao scikit-learn em um futuro próximo, porque "a demanda e a seminalidade dessas técnicas não são claras" (declaradas aqui ).
E essa é outra sugestão para validação cruzada de séries temporais.