Melhor maneira de inicializar o estado LSTM

Eu queria saber qual é a melhor maneira de inicializar o estado para LSTMs. Atualmente, eu apenas inicializo para todos os zeros. Realmente não consigo encontrar nada online sobre como inicializá-lo. Uma coisa que eu estava pensando em fazer é tornar o estado inicial um parâmetro treinável. Algum conselho?

neural-networks lstm

— chasep255
fonte

havia um jornal em algum lugar por aí, não consigo lembrar o que era, onde eles treinaram o estado inicial e obtiveram melhores resultados. caso contrário, acredito que todos os 0s são sua melhor opção

— Frobot 15/05

Normalmente, você definiria os estados iniciais como zero, mas a rede aprenderá a se adaptar a esse estado inicial.

O artigo a seguir sugere aprender os estados ocultos iniciais ou usar ruído aleatório.

Basicamente, se seus dados incluem muitas sequências curtas, o treinamento do estado inicial pode acelerar o aprendizado.

Como alternativa, se seus dados incluírem um pequeno número de seqüências longas, talvez não haja dados suficientes para treinar efetivamente o estado inicial. Nesse caso, o uso de um estado inicial barulhento pode acelerar o aprendizado. Uma idéia que eles não mencionam seria aprender a média e o padrão do gerador de ruído.

O artigo observa que, se você optar por aprender o estado inicial, adicionar ruído é de pouco benefício.

— jpeg729
fonte

por favor adicione uma referência completa em vez de ligação

— Antoine

Como deve ser a referência?

— jpeg729