Eu tenho um modelo de rede neural profunda e preciso treiná-lo no meu conjunto de dados, que consiste em cerca de 100.000 exemplos, meus dados de validação contêm cerca de 1000 exemplos. Como leva tempo para treinar cada exemplo (cerca de 0,5s para cada exemplo) e para evitar o excesso de ajustes, eu gostaria de aplicar uma parada antecipada para evitar cálculos desnecessários. Mas não tenho certeza de como treinar corretamente minha rede neural com paradas precoces, várias coisas que ainda não entendo:
Qual seria uma boa frequência de validação? Devo verificar meu modelo nos dados de validação no final de cada época? (O tamanho do meu lote é 1)
É o caso de as primeiras épocas produzirem resultados piores antes de começar a convergir para um valor melhor? Nesse caso, devemos treinar nossa rede por várias épocas antes de verificar se há uma parada precoce?
Como lidar com o caso em que a perda de validação pode subir e descer? Nesse caso, a parada precoce pode impedir que meu modelo aprenda mais, certo?
Agradeço antecipadamente.