Média de dois vetores Word2vec para obter uma representação unificada para uma única palavra

8

Eu tenho trabalhado em dados treinados para o algoritmo Word2vec. Como precisamos que as palavras permaneçam como originais, não as tornamos minúsculas na fase de pré-processamento. Assim, existem palavras com diferentes variações (por exemplo, "Terra" e "Terra").

A única maneira de pensar é levar a média de vetores para "Terra" e "Terra" para criar um único vetor para representar a palavra. (Como as dimensões do vetor de recurso são semelhantes)

Este é um método "ok"? Caso contrário, qual seria uma boa maneira de lidar com esse problema?

Nota: A redução de todas as palavras no pré-processamento não é uma opção no momento.

Editar: as informações sobre se as dimensões dos recursos são ou não verdadeiramente lineares também seriam úteis.

Edição 2: Combinando as duas respostas patapouf_aie yazhios melhores resultados. Como eles são combinados? A média ponderada melhorou os resultados, mas a colocação de frequências de palavras por meio de uma função sigmóide em escala deu os melhores resultados, porque o uso de frequências de palavras de maneira linear lhes dá mais importância do que elas suportam.

feature-extraction word-embeddings word2vec

— ozgur
fonte

1

Apenas calculá-los pode não ser bom, porque isso pressupõe que eles tenham o mesmo peso, e esse provavelmente não é o caso se a versão em maiúscula e não capitilizada aparecer com frequências muito diferentes nos seus dados de treinamento.

Uma melhoria incremental seria calculá-los em média proporcionalmente à sua frequência no corpus. Digamos que a Terra apareça 159 vezes e a Terra 1239 vezes faça algo como:

v (Terra e terra) = 159 / (159 + 1239) * v (Terra) + 1239 / (159 + 1239) * v (terra).

Os vetores devem codificar a semântica linearmente, portanto, isso deve fornecer uma aproximação ressonável.

— patapouf_ai
fonte

1

Essa é a solução que já escolhemos. Eu também poderia aceitar a resposta.

— ozgur

0

As palavras "Terra" e "terra" podem ter o mesmo significado, mas, de acordo com o algoritmo word2vec, derivam as informações semânticas da posição das palavras.

Assim, comumente, "Terra" aparecerá com mais frequência no início da sentença como sujeito e "terra" aparecerá principalmente na forma de objeto no final. Portanto, as palavras adjacentes mais próximas podem diferir, mas no geral as duas frases podem conter palavras como "poluição, clima, água, países".

Em conclusão, acho que com um tamanho de janela maior, parece preservar a mesma informação semântica com pequenas mudanças, onde a "Terra" terá algumas informações sobre o assunto e a "terra" terá informações sobre os objetos. Portanto, a média não afetará muito e parece ser um caso possível. Mas com um tamanho de janela menor, há uma alta probabilidade de que ele possa ter significados diferentes.

— yazhi
fonte

Bem, o tamanho da BoW é 5. Qual número você considera um tamanho de janela apropriado para que a média funcione?

— Ozgur

tamanho da janela de 5 significa que, no total, considera 10 palavras e uma frase em inglês comum pode ser escrita em 10 palavras. Então isso soa bem para mim.

— Yazhi