O BERT pode executar a tarefa de previsão da próxima palavra?

Como o BERT é bidirecional (usa transformador bidirecional), é possível usá-lo para a tarefa de previsão da próxima palavra? Se sim, o que precisa ser ajustado?

— 不是 phd 的 phd
fonte

Você viu a publicação original ? Parece abordar a previsão no nível da sentença, conforme explicado na seção 3.3.2.

— Map

Considere uma discussão relacionada no GitHub .

— Mapte

O BERT não pode ser usado para a previsão da próxima palavra, pelo menos não com o estado atual da pesquisa sobre modelagem de linguagem mascarada.

O BERT é treinado em uma tarefa de modelagem de linguagem mascarada e, portanto, você não pode "prever a próxima palavra". Você só pode mascarar uma palavra e solicitar ao BERT que o preveja, considerando o restante da frase (à esquerda e à direita da palavra mascarada).

Dessa forma, com o BERT, você não pode obter amostras de texto como se fosse um modelo de linguagem autoregressiva normal. No entanto, o BERT pode ser visto como um modelo de linguagem de campo aleatório de Markov e ser usado para geração de texto como tal. Consulte o artigo BERT tem uma boca e deve falar: BERT como um modelo de linguagem de campo aleatório de Markov para obter detalhes. Os autores lançaram o código-fonte e um notebook do Google Colab .

Update: os autores do artigo MRF descobriu sua análise foi falho e BERT não é um MRF, consulte este

— ncasas
fonte

Resultados não parecem muito maduros :(

— Itachi

Por que você não pode simplesmente controlar a máscara para ser a última palavra na sequência? Em seguida, use o BERT para prever com base o token mascarado (próxima palavra). Ainda estou digerindo esses resultados, então não posso orientar como implementar. Ainda assim, parece uma abordagem plausível.

— Sledge

Isso foi tentado por um cara nas várias discussões do twitter sobre o BERT depois que ele foi lançado, e ele confirmou que o BERT falhou com a abordagem que o @Sledge está descrevendo. para usar a parte direita da sentença, necessária para realizar a previsão.

— Nsas 6/03/19

Entendo, @ncasas obrigado pela explicação.

— Sledge