Eu diria que os algoritmos word2vec são baseados em ambos.
Quando as pessoas dizem distributional representation, geralmente elas querem dizer o aspecto linguístico: significado é contexto, conhece a palavra por sua empresa e outras citações famosas.
Mas quando as pessoas dizem distributed representation, isso não tem nada a ver com linguística. É mais sobre o aspecto da ciência da computação. Se eu entendo Mikolov e outros corretamente, a palavra
distributedem seus artigos significa que cada componente único de uma representação vetorial não tem significado próprio. Os recursos interpretáveis (por exemplo, contextos de palavras no caso de word2vec) estão ocultos e distributedentre componentes vetoriais não interpretáveis: cada componente é responsável por vários recursos interpretáveis e cada recurso interpretável está vinculado a vários componentes.
Portanto, o word2vec (e o doc2vec) usa representações distribuídas tecnicamente, como uma maneira de representar a semântica lexical. E, ao mesmo tempo, é conceitualmente baseado em hipóteses distributivas: funciona apenas porque as hipóteses distributivas são verdadeiras (os significados das palavras se correlacionam com seus contextos típicos).
Mas é claro que muitas vezes os termos distributede distributionalsão usados de forma intercambiável, aumentando o mal-entendido :)