Existe alguma literatura que examine a escolha do tamanho de minibatch ao realizar a descida do gradiente estocástico? Na minha experiência, parece ser uma escolha empírica, geralmente encontrada por meio de validação cruzada ou usando regras práticas variadas.
É uma boa ideia aumentar lentamente o tamanho do minibatch à medida que o erro de validação diminui? Que efeitos isso teria no erro de generalização? Estou melhor usando um minibatch extremamente pequeno e atualizando meu modelo centenas de milhares de vezes? Eu estaria melhor com um número equilibrado em algum lugar entre extremamente pequeno e lote?
Devo dimensionar o tamanho do meu minibatch com o tamanho do conjunto de dados ou o número esperado de recursos dentro do conjunto de dados?
Obviamente, tenho muitas perguntas sobre a implementação de esquemas de aprendizado de minibatch. Infelizmente, a maioria dos artigos que li realmente não especifica como eles escolheram esse hiperparâmetro. Tive algum sucesso de autores como Yann LeCun, especialmente da coleção de artigos Truques do Comércio. No entanto, ainda não vi essas perguntas totalmente abordadas. Alguém tem alguma recomendação para documentos ou conselhos sobre quais critérios eu posso usar para determinar bons tamanhos de minibatch ao tentar aprender recursos?