Divisão de dados de séries temporais em conjuntos de treinamento / teste / validação


11

Qual é a melhor maneira de dividir dados de séries temporais em conjuntos de trem / teste / validação, onde o conjunto de validação seria usado para o ajuste de hiperparâmetros?

Temos três anos de dados de vendas diárias e nosso plano é usar 2015-2016 como dados de treinamento e, em seguida, amostrar aleatoriamente 10 semanas a partir dos dados de 2017 para serem usados ​​como conjunto de validação e outras 10 semanas a partir de 2017 para o conjunto de teste. Em seguida, avançaremos em cada um dos dias no conjunto de teste e validação.

Respostas:


7

Você deve usar uma divisão com base no tempo para evitar o viés do futuro. Treine / validação / teste nessa ordem por tempo.

O conjunto de testes deve ser a parte mais recente dos dados. É necessário simular uma situação em um ambiente de produção, em que, após o treinamento de um modelo, você avalia os dados provenientes após o momento da criação do modelo. A amostragem aleatória usada para validação e treinamento não é, portanto, uma boa ideia.


4

Acho que a maneira mais completa de aproveitar seus dados de séries temporais para treinamento / validação / teste / previsão é:

insira a descrição da imagem aqui

A imagem é auto-explicativa? Caso contrário, comente e adicionarei mais texto ...


3

Em vez de criar apenas um conjunto de conjunto de treinamento / validação, você pode criar mais desses conjuntos.

O primeiro conjunto de treinamento poderia ser, digamos, dados de 6 meses (primeiro semestre de 2015) e o conjunto de validação seria os próximos três meses (julho a agosto de 2015). O segundo conjunto de treinamento seria uma combinação do primeiro conjunto de treinamento e validação. O conjunto de validação é para os próximos três meses (setembro a outubro de 2015). E assim por diante.

Essa é uma variação da validação cruzada do K-Fold, onde os conjuntos de treinamento são uma combinação do conjunto de treinamento e validação anterior.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.