Estou expandindo meu conhecimento do pacote Keras e tenho trabalhado com alguns dos modelos disponíveis. Eu tenho um problema de classificação binária da PNL que estou tentando resolver e tenho aplicado modelos diferentes.
Depois de trabalhar com alguns resultados e ler mais e mais sobre LSTM, parece que essa abordagem é muito superior a qualquer outra coisa que eu tentei (em vários conjuntos de dados). Eu fico pensando comigo mesmo: "Por que / quando você não usaria o LSTM?". O uso dos portões adicionais, inerentes ao LSTM, faz todo o sentido para mim depois de ter alguns modelos que sofrem com gradientes de fuga.
Então, qual é o problema com o LSTM? Onde eles não se saem tão bem? Eu sei que não existe um algoritmo "tamanho único", portanto, deve haver uma desvantagem no LSTM.