Depois de treinar vetores de palavras com o word2vec, é melhor normalizá-los antes de usá-los para alguns aplicativos a jusante? Ou seja, quais são os prós / contras de normalizá-los?
Depois de treinar vetores de palavras com o word2vec, é melhor normalizá-los antes de usá-los para alguns aplicativos a jusante? Ou seja, quais são os prós / contras de normalizá-los?
Respostas:
Quando os aplicativos a jusante se importam apenas com a direção dos vetores de palavras (por exemplo, eles apenas prestam atenção à semelhança de cosseno de duas palavras), normalize e esqueça o comprimento.
No entanto, se os aplicativos a jusante puderem (ou precisarem) considerar aspectos mais sensíveis, como significância da palavra ou consistência no uso da palavra (veja abaixo), a normalização pode não ser uma boa idéia.
De Levy et al., 2015 (e, na verdade, a maioria da literatura sobre incorporação de palavras):
Os vetores são normalizados de acordo com o comprimento da unidade antes de serem utilizados para o cálculo da similaridade, tornando a similaridade do cosseno e o equivalente ao produto escalar.
Também de Wilson e Schakel, 2015 :
A maioria das aplicações de incorporação de palavras explora não os vetores de palavras em si, mas as relações entre eles para resolver, por exemplo, tarefas de similaridade e de relação de palavras. Para essas tarefas, verificou-se que o uso de vetores de palavras normalizados melhora o desempenho. Portanto, o comprimento do vetor de palavras é geralmente ignorado.
Normalizar é equivalente a perder a noção de comprimento. Ou seja, depois de normalizar os vetores de palavras, você esquece o tamanho (norma, módulo) que eles tinham logo após a fase de treinamento.
No entanto, às vezes vale a pena levar em consideração o tamanho original dos vetores de palavras.
Schakel e Wilson, 2015 observaram alguns fatos interessantes sobre o comprimento dos vetores de palavras:
Uma palavra usada consistentemente em um contexto semelhante será representada por um vetor mais longo que uma palavra da mesma frequência usada em contextos diferentes.
Não apenas a direção, mas também o comprimento dos vetores de palavras carregam informações importantes.
O comprimento do vetor de palavras fornece, em combinação com a frequência do termo, uma medida útil do significado da palavra.