Respostas:
Bem, os nomes são bem diretos e devem fornecer uma idéia clara das representações vetoriais.
O algoritmo Word2Vec cria representação semântica distribuída de palavras. Existem duas abordagens principais para o treinamento, o Distributed Bag of Words e o modelo de pular grama. Um envolve prever as palavras de contexto usando uma palavra central, enquanto o outro envolve prever a palavra usando as palavras de contexto. Você pode ler sobre isso em muitos detalhes no de Mikolov papel .
A mesma idéia pode ser estendida para frases e documentos completos, onde, em vez de aprender representações de recursos para palavras, você aprende para frases ou documentos. No entanto, para ter uma idéia geral de um SentençaParaVec, pense nele como uma média matemática das representações de vetores de palavras de todas as palavras na frase. Você pode obter uma aproximação muito boa calculando a média e sem treinar nenhum SentençaToVec, mas é claro que tem suas limitações.
O Doc2Vec amplia a ideia do SentençaToVec ou, melhor, do Word2Vec, porque as frases também podem ser consideradas documentos. A idéia de treinamento permanece semelhante. Você pode ler o documento Doc2Vec de Mikolov para obter mais detalhes.
Chegando aos aplicativos, isso dependeria da tarefa. Um Word2Vec captura efetivamente relações semânticas entre palavras, portanto, pode ser usado para calcular semelhanças de palavras ou alimentado como recursos para várias tarefas da PNL, como análise de sentimentos etc. não apenas palavras. Por exemplo, se você está tentando descobrir, se duas perguntas de estouro de pilha são duplicadas uma da outra.
Uma simples pesquisa no Google levará você a várias aplicações desses algoritmos.