O que é uma formulação LSTM-LM?

Estou lendo este artigo "Sequência para aprendizado de sequência com redes neurais" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

Em "2. O Modelo", diz:

O LSTM calcula essa probabilidade condicional obtendo primeiro a representação dimensional fixa v da sequência de entrada (x1,..., XT) dada pelo último estado oculto do LSTM e depois calculando a probabilidade de y1,. . . , yT 'com uma formulação padrão LSTM-LM cujo estado oculto inicial é definido como a representação v de x1,. . . , xT:

Eu sei o que é um LSTM, mas o que é um LSTM-LM? Eu tentei pesquisar no Google, mas não consigo encontrar bons leads.

— Taevanbat Mongol
fonte

Mas essa frase ainda é intrigante para mim. se eu colocá-lo na equação, se make ! [ ] ( i.stack.imgur.com/0Lv8L.png ) ! [(https://i.stack.imgur.com/et5Sf.png) com c o último estado oculto de o codificador. então o primeiro estado oculto representa a informação fornecida pelo codificador, mas o próximo representa a distribuição de probabilidade dos elementos da sequência alvo: algo de natureza radicalmente diferente. Também a inicialização estado estado celular não é dado e a figura 1 Vamos acreditar que o LSTM provid

— Charles Englebert

Respostas:

A definição de um modelo de linguagem (LM) é uma distribuição de probabilidade em seqüências de palavras.

A ilustração simples de um ML é prever a próxima palavra, dada a (s) palavra (s) anterior (es).

Por exemplo, se eu tiver um modelo de idioma e algumas palavras iniciais:

Defino minha palavra inicial como My
Meu modelo prevê que existe uma alta probabilidade que nameaparece depois My.
Ao definir as palavras iniciais para My name, meu modelo prevê que há uma alta probabilidade que isaparece depois My name.
Então é assim: My-> My name-> My name is-> My name is Tome assim por diante.

Você pode pensar no preenchimento automático no teclado do smartphone. De fato, o LM é o coração dos autocompletions.

Portanto, o LSTM-LM está simplesmente usando uma LSTM (e a função softmax) para prever a próxima palavra, com as palavras anteriores.

A propósito, o Language Model não se limita ao LSTM, outros RNNs (GRU) ou outros modelos estruturados. De fato, você também pode usar redes de feedforward com janela de contexto / deslizante / rolante para prever a próxima palavra, considerando suas palavras iniciais.

— rilut
fonte

Isso muda a formulação do próprio LSTM de alguma forma?

— Taevanbat Mongol 04/08/16

Ou isso muda a maneira como os LSTMs são vinculados?

— Taevanbat Mongol 04/08/16

IMHO, talvez signifique um LSTM ajustado para LM (Language Modeling). Estou lendo o mesmo papel e que é o meu entendimento

— Ali

@TaevanbatMongol não, não está mudando a formulação do LSTM. Você só precisa de uma função softmax (ou algo) para gerar a probabilidade de palavras a partir da saída LSTM

— rilut

Probabilidade de meios palavras, se você somar a probabilidade / pontuação da saída de uma iteração, será igual a 1

— rilut

Nesse contexto, acho que significa que você pega a representação de saída e aprende uma camada softmax adicional que corresponde aos tokens no seu modelo de idioma (neste caso, letras).

— Bhav Ashok
fonte