Estou tentando trabalhar no caminho do primeiro conjunto de problemas do material do curso de classe on-line stanford cs224d e estou tendo alguns problemas com o problema 3A: Ao usar o modelo skip gram word2vec com a função de previsão softmax e a função de perda de entropia cruzada, deseja calcular os gradientes em relação aos vetores de palavras previstos. Portanto, dada a função softmax:
e função de entropia cruzada:
precisamos calcular
Minhas etapas são as seguintes:
agora dado é um vetor quente e i é a classe correta:
Isso está correto ou poderia ser mais simplificado? Quero tentar garantir que estou no caminho certo, pois as soluções do conjunto de problemas não são publicadas on-line. Além disso, é importante obter as atribuições escritas corretas para poder executar adequadamente as atribuições de programação.