1
Escolhendo um tamanho de minibatch apropriado para descida do gradiente estocástico (SGD)
Existe alguma literatura que examine a escolha do tamanho de minibatch ao realizar a descida do gradiente estocástico? Na minha experiência, parece ser uma escolha empírica, geralmente encontrada por meio de validação cruzada ou usando regras práticas variadas. É uma boa ideia aumentar lentamente o tamanho do minibatch à medida …