Qual é a relação da função objetivo de amostragem negativa (NS) com a função objetivo original no word2vec?

8

Eu estava lendo o modelo word2vec padrão / famoso e de acordo com as notas do standord para cs224n, a função objetivo muda de:

J_{o r i g i n a l} = - \sum_{j = 0, j \neq m}^{2 m} u_{c - m + j}^{⊤} v_{c} + 2 m l o g (\sum_{k = 1}^{| V |} e x p (u_{k}^{⊤} v_{c}))

$J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right)$

para:

J_{N S 1} = - l o g σ (u_{c - m + j}^{⊤} v_{c}) - \sum_{k = 1}^{K} l o g σ (- u_{k}^{⊤} v_{c})

$J_{NS1} = -log \sigma( u^\top_{c-m+j} v_c ) - \sum^{K}_{k=1} log \sigma( -u^{\top}_k v_c )$

ou

J_{N S 2} = - (\log σ (v_{w_{o}}^{T} v_{w_{c}}) + \sum_{i = 1}^{K} E_{i \sim P (w)} [\log σ (- u_{w_{i}}^{T} v_{w_{c}})])

$J_{NS2} = - \left( \log\sigma( v_{w_o}^T v_{w_c} ) + \sum^K_{i=1} \mathbb{E}_{i \sim P(w)} \left[ \log \sigma( - u^T_{w_i} v_{w_c})\right] \right)$

Fiquei me perguntando, de onde vem a segunda função objetiva? De onde vem a amostragem negativa? Não preciso de uma prova / derivação rigorosa, mas qualquer tipo de justificativa seria bom. Uau, o segundo está se aproximando do primeiro? Em algum sentido? Áspero, aproximação, intuitivo, há algo para justificar isso?

Note que entendo que há um ganho de velocidade. Estou mais interessado em entender o que pode ter sido o processo de pensamento para derivar o que foi dito acima, enquanto ainda quero otimizar a função original ou ter boas combinações de palavras.

Meus próprios pensamentos:

Seja a probabilidade de que um determinado par palavra e contexto venha dos dados do corpus. Considere (ou seja, vamos ver as coisas como maximizando probabilidades). Parece que maximizar o primeiro termo gera corretamente dois vetores de palavras que são correlacionados, pois para tornar grande um pode tornar o primeiro termo grande tornando o primeiro termo próximo de 1, o que pode ser alcançado com o produto interno de os vetores grandes. $P_{\theta}(D=1 \mid w,c)$ $(w,c)$ $-J_{NS1} = \log \sigma( u^\top_{c-m+j} v_c ) + \sum^{K}_{k=1} log \sigma( -u^{\top}_k v_c )$ $-J_{NS1}$

No entanto, parece-me que o segundo termo está realmente nos motivando a recuperar representações de palavras ruins . Vamos analisar qual é o segundo termo:

\log σ (- u_{not context}^{⊤} v_{c e n t e r}) = \log (1 - σ (u_{not context}^{⊤} v_{c e n t e r}))

$\log \sigma( -u^\top_{\text{not context}} v_{center}) = \log \left(1 - \sigma( u^\top_{\text{not context}} v_{center}) \right)$

podemos aumentar o termo acima aumentando grande, o que significa que pequeno (próximo a zero "probabilidade"). Isso significa que queremos um argumento muito negativo para o sigmóide. O que significa que obtemos vetores com um grande produto interno negativo. Isso me parece meio errado, porque se o produto interno fosse zero, ou seja, as palavras fossem perpendiculares, seria um objetivo melhor. Por que eles escolheram o outro? Palavras perpendiculares não seriam melhores? isto é, se as palavras não são semelhantes e, portanto, não estão correlacionadas, elas não têm nada a ver uma com a outra e, portanto, têm zero produto interno. $1 - \sigma( u^\top_{\text{not context}} v_{center})$ $\sigma( u^\top_{\text{not context}} v_{center})$

Essencialmente, por que o produto interno negativo é um melhor senso de similaridade de palavras do que o produto interno que é zero?

— Pinóquio
fonte

parece útil: stackoverflow.com/questions/27860652/…

— Pinóquio

11

Relacionados: stats.stackexchange.com/questions/244616 (talvez até mesmo duplicar?)

— ameba

1

A resposta à pergunta referenciada por @amoebasaysReinstateMonica no comentário da sua pergunta responde muito bem, mas eu gostaria de fazer dois pontos.

Primeiro, para expandir um ponto nessa resposta, o objetivo que está sendo minimizado não é o log negativo da função softmax. Pelo contrário, é definida como uma variante da estimativa contrastiva de ruído (NCE), que se resume a um conjunto de regressões logísticas. Um é usado para a amostra positiva (isto é, a palavra de contexto verdadeira dada a palavra central) e o restante é usado para as amostras negativas (isto é, a palavra de contexto falsa / falsa dada a palavra central). $K$ $K-1$

Segundo, a razão pela qual você desejaria um grande produto interno negativo entre as palavras de contexto falsas e a palavra central é porque isso implica que as palavras são maximamente diferentes. Para ver isso, considere a fórmula da semelhança de cosseno entre dois vetores e : Isso atinge um mínimo de -1 quando e estão orientados em direções opostas e é igual a 0 quando e $x$ $y$

s_{c o s} (x, y) = \frac{x^{T} y}{| | x | |_{2} | | y | |_{2}}

$s_{cos}(x, y) = \frac{x^Ty}{||x||_2||y||_2}$

x

$x$

y

$y$

x

$x$

y

$y$ são perpendiculares. Se são perpendiculares, não contêm a mesma informação e, se orientadas de maneira oposta, contêm informações opostas. Se você imagina vetores de palavras em 2D, é como dizer que a palavra "brilhante" tem a incorporação [1 0], "escuro" tem a incorporação [-1 0] e "delicioso" tem a incorporação [0 1]. Em nosso exemplo simples, "claro" e "escuro" são opostos. Prever que algo está "escuro" quando está "claro" seria maximamente incorreto, pois transmitiria exatamente o oposto da informação pretendida. Por outro lado, a palavra "delicioso" não traz informações sobre se algo é "brilhante" ou "escuro"; portanto, é orientado perpendicularmente a ambos.

Esse também é um motivo pelo qual os embeddings aprendidos com o word2vec têm bom desempenho no raciocínio analógico, que envolve somas e diferenças de vetores de palavras. Você pode ler mais sobre a tarefa no documento word2vec.

— Vivek Subramanian
fonte

-1

Os vetores que estão sendo multiplicados não estão incorporando vetores das palavras. Eles são Os produtos internos são um conjunto de vetores de incorporação de palavras e a matriz de peso / vetores da camada de saída. Portanto, o objetivo é minimizar a perda de entropia cruzada. Se os produtos inet são negativos ou zero, isso não indica nada sobre similaridade de palavras. Esta é a minha opinião.

— Tyler 傲来国主
fonte