Eu diria que os algoritmos word2vec são baseados em ambos.
Quando as pessoas dizem distributional representation
, geralmente elas querem dizer o aspecto linguístico: significado é contexto, conhece a palavra por sua empresa e outras citações famosas.
Mas quando as pessoas dizem distributed representation
, isso não tem nada a ver com linguística. É mais sobre o aspecto da ciência da computação. Se eu entendo Mikolov e outros corretamente, a palavra
distributed
em seus artigos significa que cada componente único de uma representação vetorial não tem significado próprio. Os recursos interpretáveis (por exemplo, contextos de palavras no caso de word2vec) estão ocultos e distributed
entre componentes vetoriais não interpretáveis: cada componente é responsável por vários recursos interpretáveis e cada recurso interpretável está vinculado a vários componentes.
Portanto, o word2vec (e o doc2vec) usa representações distribuídas tecnicamente, como uma maneira de representar a semântica lexical. E, ao mesmo tempo, é conceitualmente baseado em hipóteses distributivas: funciona apenas porque as hipóteses distributivas são verdadeiras (os significados das palavras se correlacionam com seus contextos típicos).
Mas é claro que muitas vezes os termos distributed
e distributional
são usados de forma intercambiável, aumentando o mal-entendido :)