Normalmente, você definiria os estados iniciais como zero, mas a rede aprenderá a se adaptar a esse estado inicial.
O artigo a seguir sugere aprender os estados ocultos iniciais ou usar ruído aleatório.
Basicamente, se seus dados incluem muitas sequências curtas, o treinamento do estado inicial pode acelerar o aprendizado.
Como alternativa, se seus dados incluírem um pequeno número de seqüências longas, talvez não haja dados suficientes para treinar efetivamente o estado inicial. Nesse caso, o uso de um estado inicial barulhento pode acelerar o aprendizado. Uma idéia que eles não mencionam seria aprender a média e o padrão do gerador de ruído.
O artigo observa que, se você optar por aprender o estado inicial, adicionar ruído é de pouco benefício.