RNN com regularização L2 para de aprender

Uso RNN bidirecional para detectar um evento de ocorrência desequilibrada. A classe positiva é 100 vezes menos que a classe negativa. Embora nenhum uso de regularização eu possa obter 100% de precisão no conjunto de trens e 30% no conjunto de validação. Ativei a regularização de l2 e o resultado é de apenas 30% de precisão no conjunto de trens em vez de um aprendizado mais longo e 100% de precisão no conjunto de validação.

Eu estava pensando que talvez meus dados sejam muito pequenos, então, apenas para o experimento, mesclei o conjunto de trem com o conjunto de teste que não usava antes. A situação era a mesma que eu usaria a regularização de l2, o que eu não fazia agora. Eu recebo 30% de precisão no trem + teste e validação.

Em uso 128 unidades ocultas e 80 timesteps nas experiências mencionadas. Quando eu aumentei o número de unidades ocultas para 256, posso voltar a ajustar o trem e o conjunto de testes novamente para obter 100% de precisão, mas ainda apenas 30% no conjunto de validação.

Eu tentei tantas opções para hiperparâmetros e quase nenhum resultado. Talvez a entropia cruzada ponderada esteja causando o problema, em determinadas experiências o peso na classe positiva é 5. Ao tentar pesos maiores, os resultados geralmente são piores em torno de 20% de precisão.

Eu tentei células LSTM e GRU, não há diferença.

Os melhores resultados que obtive. Eu tentei 2 camadas ocultas com 256 unidades ocultas, levou cerca de 3 dias de computação e 8 GB de memória GPU. Eu tenho cerca de 40-50% de precisão antes que ele comece a se ajustar novamente enquanto a regularização de l2 estava ligada, mas não tão forte.

Eu uso otimizadores de Adam, outros não funcionaram tão bem. O recurso que tenho é suficiente, porque, ao usar a máquina de estado, posso obter 90% de precisão. Nessa máquina de estado, o recurso principal é soma e limiar com base em outras propriedades do recurso e seu comprimento variável às vezes é 10, às vezes 20 carimbos de hora que falam sobre o recurso.

Existe alguma orientação geral sobre o que fazer nessa situação? Não consegui encontrar nada.

— Andrej Fogelton
fonte

O artigo de Bengio et al. " Sobre a dificuldade de treinar redes neurais recorrentes " dá uma dica de por que a regularização de L2 pode prejudicar o desempenho da RNN. Essencialmente, a regularização de células L1 / L2 das células RNN também compromete a capacidade das células de aprender e reter informações ao longo do tempo.

$\lambda_1$ $W_{rec}$ $\lambda_1$

— Sycorax diz restabelecer Monica
fonte