Recentemente, fiquei interessado em LSTMs e fiquei surpreso ao saber que os pesos são compartilhados ao longo do tempo.
Sei que, se você compartilhar os pesos ao longo do tempo, as seqüências de tempo de entrada poderão ter um comprimento variável.
Com pesos compartilhados, você tem muito menos parâmetros para treinar.
Pelo que entendi, a razão pela qual alguém se voltaria para um LSTM vs. outro método de aprendizado é porque você acredita que há algum tipo de estrutura / dependência temporal / seqüencial em seus dados que você gostaria de aprender. Se você sacrifica o comprimento variável 'luxo' e aceita um longo tempo de computação, um RNN / LSTM sem pesos compartilhados (ou seja, para cada etapa que você tem pesos diferentes) teria um desempenho muito melhor ou falta algo?