Eu acho que você está se referindo a camadas LSTM empilhadas verticalmente (assumindo que os eixos horizontais são o eixo do tempo).
Nesse caso, o principal motivo para empilhar o LSTM é permitir maior complexidade do modelo. No caso de uma rede simples de feedforward, empilhamos camadas para criar uma representação hierárquica de recursos dos dados de entrada, para depois usá-los em alguma tarefa de aprendizado de máquina. O mesmo se aplica aos LSTMs empilhados.
A cada passo, um LSTM, além da entrada recorrente. Se a entrada já for o resultado de uma camada LSTM (ou uma camada de avanço), o LSTM atual poderá criar uma representação de recurso mais complexa da entrada atual.
Agora, a diferença entre ter uma camada de avanço entre a entrada do recurso e a camada LSTM e ter outra camada de LSTM é que uma camada de avanço (por exemplo, uma camada totalmente conectada) não recebe feedback de sua etapa anterior e, portanto, não pode dar conta de certas padrões. Tendo um LSTM em lugar (por exemplo, usando uma representação LSTM empilhada), padrões de entrada mais complexos podem ser descritos em todas as camadas