esse experimento de Stephen Mayhew sugere que o BERT é péssimo na geração seqüencial de texto:
although he had already eaten a large meal, he was still very hungry
Como antes, mascarei a "fome" para ver o que o BERT previa. Se pudesse prever corretamente sem o contexto certo, poderíamos estar em boa forma para geração.
Isso falhou. O BERT previu "muito" como a última palavra. Talvez seja porque o BERT acha que a ausência de um período significa que a sentença deve continuar. Talvez seja tão usado para completar frases que fique confuso. Não tenho certeza.
Alguém poderia argumentar que devemos continuar prevendo depois de "muito". Talvez isso produza algo significativo. Para isso, eu diria: primeiro, isso era para ser uma oferta inoperante, e qualquer humano previa "fome". Segundo, eu tentei e continua prevendo coisas idiotas. Depois de "much", o próximo token é ",".
Portanto, pelo menos usando esses métodos triviais, o BERT não pode gerar texto.