Gradientes para o skipgram word2vec

Estou enfrentando os problemas dos problemas de atribuição escrita da classe de aprendizado profundo da Stanford PNL http://cs224d.stanford.edu/assignment1/assignment1_soln

Estou tentando entender a resposta para 3a onde eles estão procurando a derivada do vetor para a palavra central.

Suponha que você receba um vetor de palavras previsto correspondente à palavra central c do skipgram, e a previsão de palavras é feita com a função softmax encontrada nos modelos word2vec. $v_{c}$

$\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})}$

Onde w denota a w-ésima palavra e (w = 1,.., W) são os vetores de palavras "de saída" para todas as palavras do vocabulário. Suponha que o custo da entropia cruzada seja aplicado a essa previsão e a palavra o seja a palavra esperada. $u_w$

Onde é a matriz de todos os vetores de saída e é o vetor da coluna da previsão de palavras-chave do softmax e y é o rótulo único que também é um vetor de coluna. $U = [u_1,u_2, · · · ,u_W ]$ $\hat{y}$

Onde entropia cruzada é $CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i)$

Portanto, a resposta do gradiente para o vetor central é $\frac{∂J}{∂v_c}= U^T(\hat{y} − y).$

Alguém poderia me mostrar as etapas para chegar a isso? Eu tenho usado essa pergunta como referência Derivada da perda de entropia cruzada no word2vec, mas quero saber especificamente orepresentação. $U^T(\hat{y} − y).$

— Jake Fund
fonte

Primeiro, vamos mostrar o que temos e nossas suposições sobre as formas dos diferentes vetores. Deixei,

$|W|$ ser o número de palavras no vocabulário
$y$ e são vetores de coluna de formax 1 $\hat{y}$ $|W|$
$u_i$ e são os vetores de coluna da forma X 1 ( = dimensão dos revestimentos) $v_j$ $D$ $D$
$y$ seja o vetor da coluna codificada com um ponto quente da formax 1 $|W|$
$\hat{y}$ seja o vetor da coluna de previsão softmax da formax 1 $|W|$
$\hat{y}_i = P(i|c) = \frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)}$
Perda de entropia cruzada: $J = -\sum_{i=1}^Wy_ilog({\hat{y_i}})$
$U = [u_1, u_2, ...,u_k, ...u_W]$ seja uma matriz composta por vetores de colunas . $u_k$

Agora, podemos escrever Simplificando, Agora, sabemos que é codificado como um hot, portanto todos os seus elementos são zero, exceto aquele no, digamos, índice. O que significa que há apenas um termo diferente de zero no somatório acima correspondente a e todos os outros termos no somatório são zeros. Portanto, o custo também pode ser escrito como: Nota: acima de é 1.

J = - \sum_{i = 1}^{W} y_{i} l o g (\frac{e x p (u_{i}^{T} v_{c})}{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c})})

$J = - \sum_{i=1}^W y_i log(\frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)})$

J = - \sum_{i = 1}^{W} y_{i} [u_{i}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = - \sum_{i=1}^Wy_i[u_i^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y

$y$

k^{t h}

$k^{th}$

y_{k}

$y_k$

J = - y_{k} [u_{k}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = -y_k[u_k^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y_{k}

$y_k$

Resolvendo para : $\frac{\partial J}{\partial v_c}$

\frac{\partial J}{\partial v_{c}} = - [u_{k} - \frac{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}) u_{w}}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})}]

$\frac{\partial J}{\partial v_c} = -[u_k - \frac{\sum_{w=1}^Wexp(u_w^Tv_c)u_w}{\sum_{x=1}^Wexp(u_x^Tv_c)}]$

Que pode ser reorganizado como: Usando a definição (6), podemos reescrever a equação acima como:

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} (\frac{e x p (u_{w}^{T} v_{c})}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\frac{exp(u_w^Tv_c)}{\sum_{x=1}^W exp(u_x^Tv_c)}u_w) - u_k$

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} ({\hat{y}}_{w} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\hat{y}_w u_w) - u_k$

Agora vamos ver como isso pode ser escrito na notação Matrix.

$u_k$ pode ser escrito como multiplicação de vetor de matriz: $U.y$
E é uma transformação linear dos vetores em dimensionada por respectivamente. Isso novamente pode ser escrito como $\sum_{w=1}^W (\hat{y}_w u_w)$ $u_w$ $U$ $\hat{y}_w$ $U.\hat{y}$

Portanto, a coisa toda pode ser escrita sucintamente como:

U [\hat{y} - y]

$U[\hat{y} -y]$

Por fim, observe que assumimos que s é um vetor de coluna. Se tivéssemos começado com vetores de linha, obteríamos , o mesmo que você estava procurando. $u_i$ $U^T[\hat{y} -y]$

— Sachin Tyagi
fonte

Só queria dizer que esta é uma explicação maravilhosa para derivação! Isso realmente ajuda para quem gosta de matemática como eu. Obrigado!

— Eric Kim

+1 para a explicação incrível!

— Bragboy #

Não entendo por que essa derivação:

\frac{\partial}{\partial B} A^{T} B = A

$\frac{\partial}{\partial B} A^TB = A$

— Parth Tamane