Quantos parâmetros estão em uma camada de rede neural recorrente (GRN) de unidade recorrente (GRU)?

O título já diz tudo - quantos parâmetros treináveis existem em uma camada GRU? Esse tipo de pergunta surge muito ao tentar comparar modelos de diferentes tipos de camadas RNN, como unidades de memória de longo prazo (LSTM) versus GRU, em termos de desempenho por parâmetro. Como um número maior de parâmetros treináveis geralmente aumentará a capacidade da rede de aprender, a comparação de modelos alternativos por parâmetro é uma comparação entre as maçãs da eficácia relativa de GRUs e LSTMs.

neural-networks rnn gru

— Sycorax diz restabelecer Monica
fonte