Digamos que eu tenha uma arquitetura de modelo de aprendizado profundo, bem como um tamanho de minilote escolhido. Como derivar desses requisitos de memória esperados para o treinamento desse modelo?
Como exemplo, considere um modelo (não recorrente) com entrada da dimensão 1000, 4 camadas ocultas totalmente conectadas da dimensão 100 e uma camada de saída adicional da dimensão 10. O tamanho do mini lote é de 256 exemplos. Como se determina a pegada de memória aproximada (RAM) do processo de treinamento na CPU e na GPU? Se isso fizer alguma diferença, vamos supor que o modelo seja treinado em uma GPU com TensorFlow (portanto, usando cuDNN).