Estou realizando experimentos no conjunto de validação EMNIST usando redes com RMSProp, Adam e SGD. Estou atingindo uma precisão de 87% com SGD (taxa de aprendizado de 0,1) e desistência (prob de desistência de 0,1), bem como regularização de L2 (penalidade 1e-05). Ao testar a mesma configuração exata com o RMSProp e Adam, bem como a taxa de aprendizado inicial de 0,001, estou obtendo uma precisão de 85% e uma curva de treinamento significativamente menos suave. Não sei como explicar esse comportamento. Qual pode ser a razão por trás da falta de suavidade na curva de treinamento e a menor precisão e maiores taxas de erro alcançadas?