Para uma tarefa de processamento de linguagem natural (PNL), geralmente se usa vetores word2vec como uma incorporação para as palavras. No entanto, pode haver muitas palavras desconhecidas que não são capturadas pelos vetores word2vec simplesmente porque essas palavras não são vistas com bastante frequência nos dados de treinamento (muitas implementações usam uma contagem mínima antes de adicionar uma palavra ao vocabulário). Este pode ser especialmente o caso de textos do, por exemplo, Twitter, onde as palavras são frequentemente incorretas.
Como essas palavras desconhecidas devem ser tratadas ao modelar uma tarefa de PNL, como previsão de sentimentos, usando uma rede de longo prazo (LSTM)? Eu vejo duas opções:
- Adicionando um token de 'palavra desconhecida' ao dicionário word2vec.
- Excluindo essas palavras desconhecidas, de modo que o LSTM nem saiba que a palavra estava na frase.
Qual é a maneira preferida de lidar com essas palavras?