2
Por que os RNNs com unidades LSTM também sofrem com "gradientes explosivos"?
Eu tenho um conhecimento básico de como as RNNs (e, em particular, com as unidades LSTMs) funcionam. Tenho uma idéia pictórica da arquitetura de uma unidade LSTM, que é uma célula e alguns portões, que regulam o fluxo de valores. No entanto, aparentemente, eu não entendi completamente como o LSTM …