Estou enfrentando os problemas dos problemas de atribuição escrita da classe de aprendizado profundo da Stanford PNL http://cs224d.stanford.edu/assignment1/assignment1_soln
Estou tentando entender a resposta para 3a onde eles estão procurando a derivada do vetor para a palavra central.
Suponha que você receba um vetor de palavras previsto correspondente à palavra central c do skipgram, e a previsão de palavras é feita com a função softmax encontrada nos modelos word2vec.
Onde w denota a w-ésima palavra e (w = 1,.., W) são os vetores de palavras "de saída" para todas as palavras do vocabulário. Suponha que o custo da entropia cruzada seja aplicado a essa previsão e a palavra o seja a palavra esperada.
Onde é a matriz de todos os vetores de saída e é o vetor da coluna da previsão de palavras-chave do softmax e y é o rótulo único que também é um vetor de coluna.
Onde entropia cruzada é
Portanto, a resposta do gradiente para o vetor central é
Alguém poderia me mostrar as etapas para chegar a isso? Eu tenho usado essa pergunta como referência Derivada da perda de entropia cruzada no word2vec, mas quero saber especificamente orepresentação.