Então, qual é o problema com o LSTM?

Estou expandindo meu conhecimento do pacote Keras e tenho trabalhado com alguns dos modelos disponíveis. Eu tenho um problema de classificação binária da PNL que estou tentando resolver e tenho aplicado modelos diferentes.

Depois de trabalhar com alguns resultados e ler mais e mais sobre LSTM, parece que essa abordagem é muito superior a qualquer outra coisa que eu tentei (em vários conjuntos de dados). Eu fico pensando comigo mesmo: "Por que / quando você não usaria o LSTM?". O uso dos portões adicionais, inerentes ao LSTM, faz todo o sentido para mim depois de ter alguns modelos que sofrem com gradientes de fuga.

Então, qual é o problema com o LSTM? Onde eles não se saem tão bem? Eu sei que não existe um algoritmo "tamanho único", portanto, deve haver uma desvantagem no LSTM.

— I_Play_With_Data
fonte

Experimente o GRU, eles são como LSTM, mas requerem menos memória e treinam mais rapidamente.

— Vivek Khetan

Você está certo de que os LSTMs funcionam muito bem em alguns problemas, mas algumas das desvantagens são:

LSTMs levam mais tempo para treinar
LSTMs requerem mais memória para treinar
LSTMs são fáceis de ajustar demais
A desistência é muito mais difícil de implementar nos LSTMs
LSTMs são sensíveis a diferentes inicializações aleatórias de peso

Estes são comparados a um modelo mais simples, como uma rede conv convencional 1D, por exemplo.

Os três primeiros itens são porque os LSTMs têm mais parâmetros.

— Imran
fonte

Concordo, e acho que o excesso de ajuste (também conhecido como má generalização) é talvez o maior risco. Verifique se você possui uma boa estratégia para validar o modelo.

— tom