Unidade GRU COMPLETA
c~t= tanh( Wc[ Gr∗ ct - 1, xt] + bc)
Gvocê= σ( Wvocê[ ct - 1, xt] + bvocê)
Gr= σ( Wr[ ct - 1, xt] + br)
ct= Gvocê∗ c~t+ ( 1 - Gvocê) ∗ ct - 1
umat= ct
Unidade LSTM
c~t= tanh( Wc[ at - 1, xt] + bc)
Gvocê= σ( Wvocê[ at - 1, xt] + bvocê)
Gf= σ( Wf[ at - 1, xt] + bf)
Go= σ( Wo[ at - 1, xt] + bo)
ct= Gvocê∗ c~t+ Gf∗ ct - 1
umat= GoA t a n h ( ct)
Como pode ser visto nas equações, os LSTMs têm um portão de atualização separado e um portão de esquecimento. Isso claramente torna os LSTMs mais sofisticados, mas ao mesmo tempo mais complexos. Não há uma maneira simples de decidir qual usar para seu caso de uso específico. Você sempre tem que tentar e errar para testar o desempenho. No entanto, como a GRU é mais simples que a LSTM, as GRUs levarão muito menos tempo para treinar e serão mais eficientes.
Créditos: Andrew Ng