Eu estava lendo o modelo word2vec padrão / famoso e de acordo com as notas do standord para cs224n, a função objetivo muda de:
para:
ou
Fiquei me perguntando, de onde vem a segunda função objetiva? De onde vem a amostragem negativa? Não preciso de uma prova / derivação rigorosa, mas qualquer tipo de justificativa seria bom. Uau, o segundo está se aproximando do primeiro? Em algum sentido? Áspero, aproximação, intuitivo, há algo para justificar isso?
Note que entendo que há um ganho de velocidade. Estou mais interessado em entender o que pode ter sido o processo de pensamento para derivar o que foi dito acima, enquanto ainda quero otimizar a função original ou ter boas combinações de palavras.
Meus próprios pensamentos:
Seja a probabilidade de que um determinado par palavra e contexto venha dos dados do corpus. Considere (ou seja, vamos ver as coisas como maximizando probabilidades). Parece que maximizar o primeiro termo gera corretamente dois vetores de palavras que são correlacionados, pois para tornar grande um pode tornar o primeiro termo grande tornando o primeiro termo próximo de 1, o que pode ser alcançado com o produto interno de os vetores grandes.
No entanto, parece-me que o segundo termo está realmente nos motivando a recuperar representações de palavras ruins . Vamos analisar qual é o segundo termo:
podemos aumentar o termo acima aumentando grande, o que significa que pequeno (próximo a zero "probabilidade"). Isso significa que queremos um argumento muito negativo para o sigmóide. O que significa que obtemos vetores com um grande produto interno negativo. Isso me parece meio errado, porque se o produto interno fosse zero, ou seja, as palavras fossem perpendiculares, seria um objetivo melhor. Por que eles escolheram o outro? Palavras perpendiculares não seriam melhores? isto é, se as palavras não são semelhantes e, portanto, não estão correlacionadas, elas não têm nada a ver uma com a outra e, portanto, têm zero produto interno.
Essencialmente, por que o produto interno negativo é um melhor senso de similaridade de palavras do que o produto interno que é zero?