Estou modelando 15000 tweets para previsão de sentimentos usando uma única camada LSTM com 128 unidades ocultas usando uma representação do tipo word2vec com 80 dimensões. Recebo uma precisão de descida (38% com aleatório = 20%) após 1 época. Mais treinamento faz com que a precisão da validação comece a diminuir à medida que a precisão do treinamento começa a subir - um sinal claro de super ajuste.
Estou, portanto, pensando em maneiras de regularizar. Prefiro não reduzir o número de unidades ocultas (128 já parece um pouco baixo). Atualmente, uso o abandono escolar com uma probabilidade de 50%, mas talvez isso possa ser aumentado. O otimizador é Adam com os parâmetros padrão para Keras ( http://keras.io/optimizers/#adam ).
Quais são algumas maneiras eficazes de reduzir o sobreajuste para este modelo no meu conjunto de dados?