Eu tenho trabalhado em dados treinados para o algoritmo Word2vec. Como precisamos que as palavras permaneçam como originais, não as tornamos minúsculas na fase de pré-processamento. Assim, existem palavras com diferentes variações (por exemplo, "Terra" e "Terra").
A única maneira de pensar é levar a média de vetores para "Terra" e "Terra" para criar um único vetor para representar a palavra. (Como as dimensões do vetor de recurso são semelhantes)
Este é um método "ok"? Caso contrário, qual seria uma boa maneira de lidar com esse problema?
Nota: A redução de todas as palavras no pré-processamento não é uma opção no momento.
Editar: as informações sobre se as dimensões dos recursos são ou não verdadeiramente lineares também seriam úteis.
Edição 2: Combinando as duas respostas patapouf_ai
e yazhi
os melhores resultados. Como eles são combinados? A média ponderada melhorou os resultados, mas a colocação de frequências de palavras por meio de uma função sigmóide em escala deu os melhores resultados, porque o uso de frequências de palavras de maneira linear lhes dá mais importância do que elas suportam.