Word2Vec e Doc2Vec são representação distribuicional ou representação distribuída?

10

Eu li que a representação distributiva é baseada na hipótese distributiva de que palavras que ocorrem em um contexto semelhante tendem a ter significados semelhantes.

O Word2Vec e o Doc2Vec são modelados de acordo com esta hipótese. Mas, no artigo original, mesmo eles são intitulados como Distributed representation of words and phrasese Distributed representation of sentences and documents. Então, esses algoritmos são baseados em representação distributiva ou representação distribuída.

Que tal outros modelos, como LDA e LSA.

— yazhi
fonte

5

Efetivamente, o Word2Vec / Doc2Vec baseia-se em distributional hypothesisonde o contexto de cada palavra são as palavras próximas. Da mesma forma, o LSA considera todo o documento como contexto. Ambas as técnicas resolvem o word embeddingproblema - incorporam as palavras em um espaço vetorial contínuo, mantendo as palavras semanticamente relacionadas próximas.

Por outro lado, o LDA não foi feito para resolver o mesmo problema. Eles lidam com um problema diferente chamado topic modeling, que é encontrar tópicos latentes em um conjunto de documentos.

— Tu N.
fonte

Recebi uma resposta de grupos do Google afirmando que, tanto distribuídos quanto distributivos em diferentes perspectivas. Distribuicional em termos da hipótese usada e distribuída em termos dos recursos distribuídos no espaço vetorial.

— precisa saber é

v_{k i n g}

$v_{king}$ maleroyal

v_{q u e e n}

$v_{queen}$ femaleroyal

v_{k i n g} - v_{q u e e n} \sim v_{m a n} - v_{w o m a n}

$v_{king} - v_{queen} \sim v_{man} - v_{woman}$

2

Turian, Joseph, Lev Ratinov e Yoshua Bengio. " Representações de palavras: um método simples e geral para aprendizado semi-supervisionado ." Anais da 48ª reunião anual da associação para lingüística computacional. Association for Computational Linguistics, 2010. define representações distributivas e representações distribuídas da seguinte forma:

$F$ $W×C$ $W$ $F_w$ $w$ $F_c$ $F$ $F_w$ $W$ $F_w$ $F$ $d << C$ $F_w$ $w$ $d$ $g$ $F$

Uma representação distribuída é densa, de baixa dimensão e com valor real. Representações de palavras distribuídas são chamadas de incorporação de palavras. Cada dimensão da incorporação representa um recurso latente da palavra, capturando esperançosamente propriedades sintáticas e semânticas úteis. Uma representação distribuída é compacta, no sentido de que pode representar um número exponencial de clusters no número de dimensões.

FYI: Qual a diferença entre vetores de palavras, representações de palavras e incorporação de vetores?

— Franck Dernoncourt
fonte

2

A mesma confusão permanece na resposta também. Possui propriedades de ambas as representações. Vamos ver o que tem em comum. Distributional: Possui uma matriz de tamanho WxC e, em seguida, é reduzida para Wxd, onde d é o tamanho do vetor de incorporação. Ele usa tamanhos de janela para determinar o contexto. Distributed: Vetores densos e de baixa dimensão. Ele preserva recursos latentes (propriedades semânticas) nessas dimensões.

— Yazhi

2

A resposta de Andrey Kutuzov via grupos do Google foi satisfatória

Eu diria que os algoritmos word2vec são baseados em ambos.

Quando as pessoas dizem distributional representation, geralmente elas querem dizer o aspecto linguístico: significado é contexto, conhece a palavra por sua empresa e outras citações famosas.

Mas quando as pessoas dizem distributed representation, isso não tem nada a ver com linguística. É mais sobre o aspecto da ciência da computação. Se eu entendo Mikolov e outros corretamente, a palavra distributedem seus artigos significa que cada componente único de uma representação vetorial não tem significado próprio. Os recursos interpretáveis (por exemplo, contextos de palavras no caso de word2vec) estão ocultos e distributedentre componentes vetoriais não interpretáveis: cada componente é responsável por vários recursos interpretáveis e cada recurso interpretável está vinculado a vários componentes.

Portanto, o word2vec (e o doc2vec) usa representações distribuídas tecnicamente, como uma maneira de representar a semântica lexical. E, ao mesmo tempo, é conceitualmente baseado em hipóteses distributivas: funciona apenas porque as hipóteses distributivas são verdadeiras (os significados das palavras se correlacionam com seus contextos típicos).

Mas é claro que muitas vezes os termos distributede distributionalsão usados de forma intercambiável, aumentando o mal-entendido :)

— yazhi
fonte