Eu tenho usado o theano para experimentar LSTMs e queria saber quais métodos de otimização (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) funcionam melhor para LSTMs? Existem trabalhos de pesquisa sobre esse assunto?
Além disso, a resposta depende do tipo de aplicativo para o qual estou usando o LSTM? Nesse caso, estou usando LSTMs para classificação de texto (onde o texto é primeiro convertido em vetores de palavras).
Finalmente, as respostas seriam iguais ou diferentes para RNNs? Quaisquer sugestões para trabalhos de pesquisa ou informações pessoais serão muito apreciadas!
Os LSTMs parecem ser bastante poderosos e estou interessado em aprender mais sobre como usá-los da melhor maneira.